ML-разработчик (Inference) в ML-сервисы Yandex Cloud
Какие задачи вас ждут
- Производительность и масштабируемость инференса
Оптимизация throughput и latency при генерации LLM. Внедрение техник вроде speculative decoding, continuous batching и KV-cache. Тюнинг фреймворков (PyTorch, TensorRT, vLLM и других), работа с GPU-кластерами и профилирование узких мест. - Дистрибуция и оркестрация
Разработка и развитие распределённых систем для инференса больших моделей, интеграция с Kubernetes и сервис-мешами, работа с балансировщиками и автоматическим масштабированием, поддержка multi-node-сценариев (tensor/pipeline parallel). - Низкоуровневая оптимизация
CUDA/Triton-kernels, профилирование, оптимизация памяти и вычислений, кастомные ядра и операторы, работа с NVLink, RDMA и другими технологиями ускорения. - Платформенные сервисы
Разработка API, SDK и инструментов для разработчиков, автоматизация развёртывания и обновления моделей, поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.
Мы ждем, что вы
- Понимаете устройство трансформеров и LLM-инференса: attention, кеширование, последовательная генерация.
- Имеете опыт оптимизации под GPU: CUDA/Triton, профилирование, работа с Tensor Cores.
- Умеете работать с PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
- Обладаете навыками разработки на Python и одном из системных языков (C++ или Go).
- Строили и эксплуатировали высоконагруженные сервисы (Kubernetes, gRPC, observability).
