Data Engineer в Flocktory (офис в г.Москве)
Важно: компания рассматривает на эту вакансию только выпускников и студентов Нетологии.
Время ответа компании на отклик в среднем 3-4 дня
Flocktory (Qiwi Group) - IT-компания, резидент Сколково, один из лидеров рынка Marketing Technologies, самый быстрорастущий актив Qiwi group.
Что и как мы делаем
Аналитическое хранилище для BI, data science и бизнес-подразделений
- Прорабатываем модель этих данных и решаем, как и где они будут храниться. Разные продукты = разные профили нагрузки; разные профили нагрузки = разные БД. Что Postgres-у хорошо, то для Redis-а смерть, и наоборот. Поэтому мы используем микс MPP-баз, традиционных RDBMS, Kafka, NoSQL и распределенных файловых систем.
- Делаем data-self service. Чтобы полезно работать с данными, аналитически настроенные подразделения умеют в SQL и Python, а менее технические пользователи хотят красивые однокнопочные инструменты и chatops.
- Автоматизируем работу с метаданными. Это чтобы аналитики всегда знали, какую схему имеет таблица X, что в ней означает столбец Y и для каких запросов оптимизирована таблица Z. Работа с Hive metastore, Glue, Apache Atlas и т. п. - это всё здесь.
ETL- и аналитические процессы
- Пакетные ****Spark-джобы на Scala;
- Стриминговые Flink-джобы - опять-таки на Scala;
- Пайплайны на Airflow;
- Кластер Kafka connect.
В общем, то, что называется “data-intensive” приложения, и порою довольно-таки за рамками простого filter + save. Иногда ещё и в реальном времени.
Качество данных
Вот как мы заботимся о качестве данных:
- Поднимаем на новые высоты автоматизированную и развесистую data quality систему на базе Airflow;
- Даём нетехническим пользователям интерактивные дашборды, где хорошо видно, всё ли в порядке с данными;
- Развиваем систему мониторинга и алертинга, постигая некоторые неочевидные тонкости Prometheus, Grafana и Cloudwatch.
Производительность ETL и аналитики
Увлеченно воюем с проблемами вроде таких:
- Почему в стриминговой джобе без состояния столь неприлично долгие full GC-паузы;
- Затюнить использование off-heap памяти в Flink и при этом не сойти с ума;
- Оптимизировать вон тот запрос из 5 джойнов, который стал в последнее время подлагивать.
Кого мы ищем
Человека, которого описание работы выше не оттолкнуло, а наоборот. Не знаете чего-то из этого? Не проблема, мы тоже много чего не знаем, будем разбираться вместе. Особенно легко будет разобраться, если вы:
- Работали с одним из open-source планировщиков: Apache Airflow, Apache Oozie, Luigi, да хоть cron;
- Умеете писать SQL-запросы с агрегацией, вложенностью и разными видами join-ов (а аналитические функции мы и сами каждый раз пишем со словарём);
- Писали / пишете на Scala (опыт type class-эквилибристики не обязателен);
- Знаете или готовы изучить Python;
- Работали с Apache Spark (batch / streaming / structured streaming) и / или Apache Flink;
- Запускали сервисы в AWS / GCE / Azure.
Что мы предлагаем
- Весёлую профессиональную движуху с актуальным стеком и в меру каверзными задачами
- Работа плечом к плечу с крутыми и при этом добрыми коллегами, которые всегда помогут
- Полностью официальную зарплату (200-250K net для middle; 250-300K net - senior);
- ДМС со стоматологией после испытательного срока
- Частичную компенсацию аренды жилья рядом с офисом
- Обучение и развитие: конференции, книжки, курсы - всё возможно, дайте только знать
- Современный комфортный офис в двух минутах ходьбы от ст.м. Тверская
- Чай, кофе, фрукты, столы, стулья, бесплатное электричество и интернет в офисе