ML-разработчик (Inference) — Yandex Cloud@ Яндекс

5K $–8K $/мес

Россия Cloud Services Middle

CUDA Triton PyTorch JAX TensorRT Go C++

Опубликовано 19.03.2026

5K $–8K $/мес

подтверждённая

Опубликовано 19.03.2026

О позиции

Мы ищем ML-разработчика (Inference) для работы в команде Yandex Cloud. Ваша основная задача будет заключаться в оптимизации инференса больших языковых моделей (LLM) и разработке высокопроизводительных систем. Вы сможете сосредоточиться на различных направлениях, таких как производительность, дистрибуция и низкоуровневая оптимизация.

Чем вы будете заниматься

Оптимизация throughput и latency при генерации LLM, внедрение техник, таких как speculative decoding и KV-cache.
Разработка распределённых систем для инференса, интеграция с Kubernetes и поддержка multi-node-сценариев.
Работа с CUDA/Triton-kernels, профилирование и оптимизация памяти.
Разработка API и SDK для автоматизации развёртывания моделей.
Поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.

Требования

Понимание устройства трансформеров и LLM-инференса.
Опыт оптимизации под GPU: CUDA/Triton, профилирование.
Знание PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
Навыки разработки на Python и одном из системных языков (C++ или Go).
Опыт работы с высоконагруженными сервисами (Kubernetes, gRPC).

Будет плюсом

Опыт работы с балансировщиками и автоматическим масштабированием.
Знание технологий NVLink и RDMA.

Что мы предлагаем

Конкурентная зарплата и возможность работать в гибридном формате.
Доступ к современным технологиям и инструментам.
Возможность профессионального роста и участия в интересных проектах.
Дружелюбная команда и поддержка коллег.

Обязательные

0/1

Желательные

0/1

Бонус

0/1

Почему эта вакансия

7.5

7.5 из 10

оценка совпадения

Вакансия предлагает интересные задачи в области ML и возможность работать с современными технологиями. Однако, описание вакансии могло бы быть более детализированным.

Формируем профиль успеха...

Анализируем требования вакансии и данные рынка