Задачи:

Анализ структур данных в разных источниках и форматах, оценка их пригодности для конкретных бизнес-задач.
Загрузка, обработка и преобразование больших объемов данных из разнородных хранилищ (Oracle, Teradata, MS SQL, GreenPlum) в рабочие среды (GreenPlum, Hadoop).
Проектирование и создание аналитических витрин данных.
Подготовка и препроцессинг данных для обучения моделей машинного обучения.
Мониторинг и оптимизация рабочих процессов обработки и загрузки данных.
Контроль качества входных данных и автоматизация проверки качества данных.
Разработка инфраструктуры и внутренних сервисов для эффективной обработки больших объемов данных.
Автоматизация повторяющихся операций с данными.
Создание технической документации и поддержка баз знаний по работе с данными.
Консультация пользователей внутри компании по вопросам использования данных.

Требования:

Высшее образование.
Опыт работы от 2 лет в роли Data Engineer, Data Analyst или ETL-разработчика.
Продвинутый уровень владения SQL (аналитические функции, подзапросы, хранимые процедуры, производительность запросов).
Практический опыт работы с большими объемами данных в реляционных СУБД (Oracle, Teradata, MS SQL, GreenPlum).
Понимание концепции и принципов организации хранилища данных (DWH).
Опыт работы с технологическим стеком Hadoop (HDFS, YARN, Hive) и Apache Spark.
Опыт программирования на Java/Scala.
Понимание базовых принципов построения распределенных систем хранения и обработки данных.

Data Engineer (SafeHub)

Описание вакансии

Мэтч