ML-разработчик (Inference) в ML-сервисы Yandex Cloud

Какие задачи вас ждут

  • Производительность и масштабируемость инференса
    Оптимизация throughput и latency при генерации LLM. Внедрение техник вроде speculative decoding, continuous batching и KV-cache. Тюнинг фреймворков (PyTorch, TensorRT, vLLM и других), работа с GPU-кластерами и профилирование узких мест.
  • Дистрибуция и оркестрация
    Разработка и развитие распределённых систем для инференса больших моделей, интеграция с Kubernetes и сервис-мешами, работа с балансировщиками и автоматическим масштабированием, поддержка multi-node-сценариев (tensor/pipeline parallel).
  • Низкоуровневая оптимизация
    CUDA/Triton-kernels, профилирование, оптимизация памяти и вычислений, кастомные ядра и операторы, работа с NVLink, RDMA и другими технологиями ускорения.
  • Платформенные сервисы
    Разработка API, SDK и инструментов для разработчиков, автоматизация развёртывания и обновления моделей, поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.

Мы ждем, что вы

  • Понимаете устройство трансформеров и LLM-инференса: attention, кеширование, последовательная генерация.
  • Имеете опыт оптимизации под GPU: CUDA/Triton, профилирование, работа с Tensor Cores.
  • Умеете работать с PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
  • Обладаете навыками разработки на Python и одном из системных языков (C++ или Go).
  • Строили и эксплуатировали высоконагруженные сервисы (Kubernetes, gRPC, observability).