Задачи:
- Анализ структур данных в разных источниках и форматах, оценка их пригодности для конкретных бизнес-задач.
- Загрузка, обработка и преобразование больших объемов данных из разнородных хранилищ (Oracle, Teradata, MS SQL, GreenPlum) в рабочие среды (GreenPlum, Hadoop).
- Проектирование и создание аналитических витрин данных.
- Подготовка и препроцессинг данных для обучения моделей машинного обучения.
- Мониторинг и оптимизация рабочих процессов обработки и загрузки данных.
- Контроль качества входных данных и автоматизация проверки качества данных.
- Разработка инфраструктуры и внутренних сервисов для эффективной обработки больших объемов данных.
- Автоматизация повторяющихся операций с данными.
- Создание технической документации и поддержка баз знаний по работе с данными.
- Консультация пользователей внутри компании по вопросам использования данных.
Требования:
- Высшее образование.
- Опыт работы от 2 лет в роли Data Engineer, Data Analyst или ETL-разработчика.
- Продвинутый уровень владения SQL (аналитические функции, подзапросы, хранимые процедуры, производительность запросов).
- Практический опыт работы с большими объемами данных в реляционных СУБД (Oracle, Teradata, MS SQL, GreenPlum).
- Понимание концепции и принципов организации хранилища данных (DWH).
- Опыт работы с технологическим стеком Hadoop (HDFS, YARN, Hive) и Apache Spark.
- Опыт программирования на Java/Scala.
- Понимание базовых принципов построения распределенных систем хранения и обработки данных.
