Мы ищем опытного лида, который возглавит разработку и масштабирование конвейера обучения языковых моделей. Наша главная цель — сделать процесс экспериментов быстрым, прозрачным и доступным: чтобы любой ресерчер мог добавить свои данные в пайплайн, автоматически прогнать их через проверки, обучить proxy-модель на этапе SFT или RL и получить валидацию гипотезы без ручной боли. Вам предстоит превратить разрозненные скрипты в надежный, автоматизированный self-service пайплайн.

Обязанности

построить self-service конвейер данных: адаптировать существующие инструменты для автоматической валидации датасетов, проверок на утечки (data leaks) и деградацию качества перед стартом обучения;
автоматизировать этапы обучения: превратить унифицированные пайплайны для SFT (Supervised Fine-Tuning), RL-фазы и Online RL в сервисы;
ускорить проверку гипотез: реализовать флоу, при котором заливка новых данных автоматически триггерит легковесное обучение (на маленьких моделях) для быстрых проверок перед запуском тяжелых экспериментов;
настроить инструментарий и доступы: пробить необходимые доступы к инфраструктуре, выстроить ролевую модель и создать удобные тулы для ML-команд;
управлять командой и процессами: выстраивать кросс-функциональное взаимодействие (ML-ресерчеры, дата-инженеры, инфраструктура), руководить командой пайплайнов, растить специалистов.остроить self-service конвейер данных: адаптировать существующие инструменты для автоматической валидации датасетов, проверок на утечки (data leaks) и деградацию качества перед стартом обучения.

Требования

глубокий опыт построения ML-инфраструктуры и пайплайнов обучения (от подготовки данных до сохранения готовых весов и метрик);
понимание специфики обучения LLM: как устроены процессы SFT, RLHF/DPO, в чем сложность распределенного обучения;
уверенное владение Python и современным стеком дата/ML-оркестрации (Airflow, Prefect, Kubeflow и т.д.);
опыт руководства командой (от 3 человек), умение превращать хаос R&D-скриптов в инженерный продукт;
навыки выстраивания процессов взаимодействия между техническими и R&D-командами

Будет плюсом:

если строили автоматизированные пайплайны обучения для ML-разработчиков;
опыт работы с фреймворками распределенного обучения (FSDP, Megatron-LM, DeepSpeed, Ray);
работа с большими объемами данных (YT, Hadoop) для подготовки обучающих выборок.

Условия

гибридный формат работы г. Москва, Кутузовский пр-т 32
возможность оформления в IT-аккредитованную компанию;
корпоративный спортзал и зоны отдыха.
более 400 программ СберУниверситета для роста;
программа адаптации и помощь руководителя на старте;
крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы;
расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа;
ипотека для сотрудников по дисконтной программе;
сберПрайм+ и скидки у партнёров;
бонус за рекомендации в команду.

Lead ML Infrastructure Engineer (LLM Training Pipelines)

Описание вакансии

Обязанности

Требования

Условия

Мэтч