Задачи:

  • Анализ структур данных в разных источниках и форматах, оценка их пригодности для конкретных бизнес-задач.
  • Загрузка, обработка и преобразование больших объемов данных из разнородных хранилищ (Oracle, Teradata, MS SQL, GreenPlum) в рабочие среды (GreenPlum, Hadoop).
  • Проектирование и создание аналитических витрин данных.
  • Подготовка и препроцессинг данных для обучения моделей машинного обучения.
  • Мониторинг и оптимизация рабочих процессов обработки и загрузки данных.
  • Контроль качества входных данных и автоматизация проверки качества данных.
  • Разработка инфраструктуры и внутренних сервисов для эффективной обработки больших объемов данных.
  • Автоматизация повторяющихся операций с данными.
  • Создание технической документации и поддержка баз знаний по работе с данными.
  • Консультация пользователей внутри компании по вопросам использования данных.

Требования:

  • Высшее образование.
  • Опыт работы от 2 лет в роли Data Engineer, Data Analyst или ETL-разработчика.
  • Продвинутый уровень владения SQL (аналитические функции, подзапросы, хранимые процедуры, производительность запросов).
  • Практический опыт работы с большими объемами данных в реляционных СУБД (Oracle, Teradata, MS SQL, GreenPlum).
  • Понимание концепции и принципов организации хранилища данных (DWH).
  • Опыт работы с технологическим стеком Hadoop (HDFS, YARN, Hive) и Apache Spark.
  • Опыт программирования на Java/Scala.
  • Понимание базовых принципов построения распределенных систем хранения и обработки данных.