Стек:
Пишем преимущественно на Python (Transformers, PyTorch, Numpy, Pandas, Sklearn, CatBoost).
Активно используем экосистему Hadoop (PySpark, Hive, Kafka), у нас свой большой кластер.
Для автоматизации запусков наших пайплайнов используем Airflow.
Для технических метрик — Grafana, для бизнес-метрик — FineBI.
Основные задачи:
- NLP-задачи как в виде обучения моделей, так и в виде разработки вспомогательных сущностей на Python.
- Решение задач машинного обучения и написание кода для нагруженных сервисов на Python.
- Развитие текстовой строки новых AI-механик на Циан. Одна из целей команды — под ключ закрыть потребность общаться с человеком.
- Промпт-тюнинг LLM с использованием API и внутренних сетей и fine-tuning своих LLM.
Требования к кандидату:
- Образование: МФТИ, МГУ (желательно Мехмат, ВМК), ВШЭ, ИТМО, Бауманка, НГУ и др.
- Python: пишет легко читаемый и поддерживаемый код.
- SQL-запросы на продвинутом уровне — оконные функции, оптимизация запросов.
- Знаком с Apache стеком: HDFS/Kafka/Spark (DF API).
- Опыт разработки NLP-моделей: от tf-idf до LLM (работа с PyTorch, Transformers).
- Опыт в DL: обучение/дообучение собственных глубоких нейросетей.
- Классический ML: бустинги, линейные модели.
- Базовые знания CV: классификация, детекция, сегментация.
- Понимает ценность MLOps и переиспользования уже готовых решений внутри компании.
- Имеет кругозор или непосредственный опыт в реализации проектов для C и B пользователей.
- Способен самостоятельно коммуницировать с заказчиками и смежниками.
