Data Engineer в Flocktory (офис в г.Москве)

Москва
Полный день
ЦРК: БЮ Аналитика

Важно: компания рассматривает на эту вакансию только выпускников и студентов Нетологии.

Время ответа компании на отклик в среднем 3-4 дня


Flocktory (Qiwi Group) - IT-компания, резидент Сколково, один из лидеров рынка Marketing Technologies, самый быстрорастущий актив Qiwi group.


Что и как мы делаем


Аналитическое хранилище для BI, data science и бизнес-подразделений

  • Прорабатываем модель этих данных и решаем, как и где они будут храниться. Разные продукты = разные профили нагрузки; разные профили нагрузки = разные БД. Что Postgres-у хорошо, то для Redis-а смерть, и наоборот. Поэтому мы используем микс MPP-баз, традиционных RDBMS, Kafka, NoSQL и распределенных файловых систем.
  • Делаем data-self service. Чтобы полезно работать с данными, аналитически настроенные подразделения умеют в SQL и Python, а менее технические пользователи хотят красивые однокнопочные инструменты и chatops.
  • Автоматизируем работу с метаданными. Это чтобы аналитики всегда знали, какую схему имеет таблица X, что в ней означает столбец Y и для каких запросов оптимизирована таблица Z. Работа с Hive metastore, Glue, Apache Atlas и т. п. - это всё здесь.

ETL- и аналитические процессы

  • Пакетные ****Spark-джобы на Scala;
  • Стриминговые Flink-джобы - опять-таки на Scala;
  • Пайплайны на Airflow;
  • Кластер Kafka connect.

В общем, то, что называется “data-intensive” приложения, и порою довольно-таки за рамками простого filter + save. Иногда ещё и в реальном времени.


Качество данных

Вот как мы заботимся о качестве данных:

  • Поднимаем на новые высоты автоматизированную и развесистую data quality систему на базе Airflow;
  • Даём нетехническим пользователям интерактивные дашборды, где хорошо видно, всё ли в порядке с данными;
  • Развиваем систему мониторинга и алертинга, постигая некоторые неочевидные тонкости Prometheus, Grafana и Cloudwatch.

Производительность ETL и аналитики

Увлеченно воюем с проблемами вроде таких:

  • Почему в стриминговой джобе без состояния столь неприлично долгие full GC-паузы;
  • Затюнить использование off-heap памяти в Flink и при этом не сойти с ума;
  • Оптимизировать вон тот запрос из 5 джойнов, который стал в последнее время подлагивать.

Кого мы ищем

Человека, которого описание работы выше не оттолкнуло, а наоборот. Не знаете чего-то из этого? Не проблема, мы тоже много чего не знаем, будем разбираться вместе. Особенно легко будет разобраться, если вы:

  • Работали с одним из open-source планировщиков: Apache Airflow, Apache Oozie, Luigi, да хоть cron;
  • Умеете писать SQL-запросы с агрегацией, вложенностью и разными видами join-ов (а аналитические функции мы и сами каждый раз пишем со словарём);
  • Писали / пишете на Scala (опыт type class-эквилибристики не обязателен);
  • Знаете или готовы изучить Python;
  • Работали с Apache Spark (batch / streaming / structured streaming) и / или Apache Flink;
  • Запускали сервисы в AWS / GCE / Azure.

Что мы предлагаем

  • Весёлую профессиональную движуху с актуальным стеком и в меру каверзными задачами
  • Работа плечом к плечу с крутыми и при этом добрыми коллегами, которые всегда помогут
  • Полностью официальную зарплату (200-250K net для middle; 250-300K net - senior);
  • ДМС со стоматологией после испытательного срока
  • Частичную компенсацию аренды жилья рядом с офисом
  • Обучение и развитие: конференции, книжки, курсы - всё возможно, дайте только знать
  • Современный комфортный офис в двух минутах ходьбы от ст.м. Тверская
  • Чай, кофе, фрукты, столы, стулья, бесплатное электричество и интернет в офисе