Стек:
Пишем преимущественно на Python (Transformers, PyTorch, Numpy, Pandas, Sklearn, CatBoost).
Активно используем экосистему Hadoop (PySpark, Hive, Kafka), у нас свой большой кластер.
Для автоматизации запусков наших пайплайнов используем Airflow.
Для технических метрик — Grafana, для бизнес-метрик — FineBI.

Основные задачи:

NLP-задачи как в виде обучения моделей, так и в виде разработки вспомогательных сущностей на Python.
Решение задач машинного обучения и написание кода для нагруженных сервисов на Python.
Развитие текстовой строки новых AI-механик на Циан. Одна из целей команды — под ключ закрыть потребность общаться с человеком.
Промпт-тюнинг LLM с использованием API и внутренних сетей и fine-tuning своих LLM.

Требования к кандидату:

Образование: МФТИ, МГУ (желательно Мехмат, ВМК), ВШЭ, ИТМО, Бауманка, НГУ и др.
Python: пишет легко читаемый и поддерживаемый код.
SQL-запросы на продвинутом уровне — оконные функции, оптимизация запросов.
Знаком с Apache стеком: HDFS/Kafka/Spark (DF API).
Опыт разработки NLP-моделей: от tf-idf до LLM (работа с PyTorch, Transformers).
Опыт в DL: обучение/дообучение собственных глубоких нейросетей.
Классический ML: бустинги, линейные модели.
Базовые знания CV: классификация, детекция, сегментация.
Понимает ценность MLOps и переиспользования уже готовых решений внутри компании.
Имеет кругозор или непосредственный опыт в реализации проектов для C и B пользователей.
Способен самостоятельно коммуницировать с заказчиками и смежниками.

Senior Data Scientist (NLP/LLM)

Описание вакансии

Мэтч