ML-разработчик (Inference) — Yandex Cloud@ Яндекс

~5K $–8K $/мес
Опубликовано 19.03.2026

О позиции

Мы ищем ML-разработчика (Inference) для работы в команде Yandex Cloud. Ваша основная задача будет заключаться в оптимизации инференса больших языковых моделей (LLM) и разработке высокопроизводительных систем. Вы сможете сосредоточиться на различных направлениях, таких как производительность, дистрибуция и низкоуровневая оптимизация.

Чем вы будете заниматься

  • Оптимизация throughput и latency при генерации LLM, внедрение техник, таких как speculative decoding и KV-cache.
  • Разработка распределённых систем для инференса, интеграция с Kubernetes и поддержка multi-node-сценариев.
  • Работа с CUDA/Triton-kernels, профилирование и оптимизация памяти.
  • Разработка API и SDK для автоматизации развёртывания моделей.
  • Поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.

Требования

  • Понимание устройства трансформеров и LLM-инференса.
  • Опыт оптимизации под GPU: CUDA/Triton, профилирование.
  • Знание PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
  • Навыки разработки на Python и одном из системных языков (C++ или Go).
  • Опыт работы с высоконагруженными сервисами (Kubernetes, gRPC).

Будет плюсом

  • Опыт работы с балансировщиками и автоматическим масштабированием.
  • Знание технологий NVLink и RDMA.

Что мы предлагаем

  • Конкурентная зарплата и возможность работать в гибридном формате.
  • Доступ к современным технологиям и инструментам.
  • Возможность профессионального роста и участия в интересных проектах.
  • Дружелюбная команда и поддержка коллег.
Диапазон зарплаты
Почему эта вакансия
7.5
7.5 из 10
оценка совпадения

Вакансия предлагает интересные задачи в области ML и возможность работать с современными технологиями. Однако, описание вакансии могло бы быть более детализированным.

Обязательные
0/1
Желательные
0/1
Бонус
0/1

Формируем профиль успеха...

Анализируем требования вакансии и данные рынка

Обзор рынка

Объём рынка 2026
$7.5B
Годовой рост
15.2%
Внедрение AI
82%
Инвестиции
+120%
Спрос на кадры
+35%
Средняя ЗП
180K ₽

Навыки и требования

Обязательные
CUDATritonPyTorch
Растущий спрос
TensorFlowKubernetesApache Kafka
Снижающийся спрос
MATLABOpenCL

Тренды отрасли

Увеличение производительности моделей
Использование CUDA для оптимизации вычислительных ресурсов позволяет увеличить производительность моделей на 30%.
Рост популярности Triton Inference Server
С 2023 года использование Triton Inference Server выросло на 45% среди компаний, работающих с ML, благодаря его гибкости и производительности.

Новости отрасли

Загружаем новости отрасли...

Ищем релевантные статьи за последние 6 месяцев