ML-разработчик (Inference) в ML-сервисы Yandex Cloud

Какие задачи вас ждут

Производительность и масштабируемость инференса
Оптимизация throughput и latency при генерации LLM. Внедрение техник вроде speculative decoding, continuous batching и KV-cache. Тюнинг фреймворков (PyTorch, TensorRT, vLLM и других), работа с GPU-кластерами и профилирование узких мест.
Дистрибуция и оркестрация
Разработка и развитие распределённых систем для инференса больших моделей, интеграция с Kubernetes и сервис-мешами, работа с балансировщиками и автоматическим масштабированием, поддержка multi-node-сценариев (tensor/pipeline parallel).
Низкоуровневая оптимизация
CUDA/Triton-kernels, профилирование, оптимизация памяти и вычислений, кастомные ядра и операторы, работа с NVLink, RDMA и другими технологиями ускорения.
Платформенные сервисы
Разработка API, SDK и инструментов для разработчиков, автоматизация развёртывания и обновления моделей, поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.

Мы ждем, что вы

Понимаете устройство трансформеров и LLM-инференса: attention, кеширование, последовательная генерация.
Имеете опыт оптимизации под GPU: CUDA/Triton, профилирование, работа с Tensor Cores.
Умеете работать с PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
Обладаете навыками разработки на Python и одном из системных языков (C++ или Go).
Строили и эксплуатировали высоконагруженные сервисы (Kubernetes, gRPC, observability).

ML-разработчик (Inference)

Описание вакансии

Мэтч