Стек:
Пишем преимущественно на Python (Transformers, PyTorch, Numpy, Pandas, Sklearn, CatBoost).
Активно используем экосистему Hadoop (PySpark, Hive, Kafka), у нас свой большой кластер.
Для автоматизации запусков наших пайплайнов используем Airflow.
Для технических метрик — Grafana, для бизнес-метрик — FineBI.

Основные задачи:

  • NLP-задачи как в виде обучения моделей, так и в виде разработки вспомогательных сущностей на Python.
  • Решение задач машинного обучения и написание кода для нагруженных сервисов на Python.
  • Развитие текстовой строки новых AI-механик на Циан. Одна из целей команды — под ключ закрыть потребность общаться с человеком.
  • Промпт-тюнинг LLM с использованием API и внутренних сетей и fine-tuning своих LLM.

Требования к кандидату:

  • Образование: МФТИ, МГУ (желательно Мехмат, ВМК), ВШЭ, ИТМО, Бауманка, НГУ и др.
  • Python: пишет легко читаемый и поддерживаемый код.
  • SQL-запросы на продвинутом уровне — оконные функции, оптимизация запросов.
  • Знаком с Apache стеком: HDFS/Kafka/Spark (DF API).
  • Опыт разработки NLP-моделей: от tf-idf до LLM (работа с PyTorch, Transformers).
  • Опыт в DL: обучение/дообучение собственных глубоких нейросетей.
  • Классический ML: бустинги, линейные модели.
  • Базовые знания CV: классификация, детекция, сегментация.
  • Понимает ценность MLOps и переиспользования уже готовых решений внутри компании.
  • Имеет кругозор или непосредственный опыт в реализации проектов для C и B пользователей.
  • Способен самостоятельно коммуницировать с заказчиками и смежниками.