ML-разработчик (Inference) — Yandex Cloud@ Яндекс

5K $–8K $/мес
Опубликовано 19.03.2026

О позиции

Мы ищем ML-разработчика (Inference) для работы в команде Yandex Cloud. Ваша основная задача будет заключаться в оптимизации инференса больших языковых моделей (LLM) и разработке высокопроизводительных систем. Вы сможете сосредоточиться на различных направлениях, таких как производительность, дистрибуция и низкоуровневая оптимизация.

Чем вы будете заниматься

  • Оптимизация throughput и latency при генерации LLM, внедрение техник, таких как speculative decoding и KV-cache.
  • Разработка распределённых систем для инференса, интеграция с Kubernetes и поддержка multi-node-сценариев.
  • Работа с CUDA/Triton-kernels, профилирование и оптимизация памяти.
  • Разработка API и SDK для автоматизации развёртывания моделей.
  • Поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.

Требования

  • Понимание устройства трансформеров и LLM-инференса.
  • Опыт оптимизации под GPU: CUDA/Triton, профилирование.
  • Знание PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
  • Навыки разработки на Python и одном из системных языков (C++ или Go).
  • Опыт работы с высоконагруженными сервисами (Kubernetes, gRPC).

Будет плюсом

  • Опыт работы с балансировщиками и автоматическим масштабированием.
  • Знание технологий NVLink и RDMA.

Что мы предлагаем

  • Конкурентная зарплата и возможность работать в гибридном формате.
  • Доступ к современным технологиям и инструментам.
  • Возможность профессионального роста и участия в интересных проектах.
  • Дружелюбная команда и поддержка коллег.
Обязательные
0/1
Желательные
0/1
Бонус
0/1
Почему эта вакансия
7.5
7.5 из 10
оценка совпадения

Вакансия предлагает интересные задачи в области ML и возможность работать с современными технологиями. Однако, описание вакансии могло бы быть более детализированным.

Формируем профиль успеха...

Анализируем требования вакансии и данные рынка

Обзор рынка

Объём рынка 2026
$7.5B
Годовой рост
15.2%
Внедрение AI
82%
Инвестиции
+120%

Навыки и требования

Обязательные
CUDATritonPyTorch
Растущий спрос
TensorFlowKubernetesApache Kafka
Снижающийся спрос
MATLABOpenCL

Тренды отрасли

Увеличение производительности моделей
Использование CUDA для оптимизации вычислительных ресурсов позволяет увеличить производительность моделей на 30%.
Рост популярности Triton Inference Server
С 2023 года использование Triton Inference Server выросло на 45% среди компаний, работающих с ML, благодаря его гибкости и производительности.

Новости Cloud Services

Загружаем новости отрасли...

Ищем релевантные статьи за последние 6 месяцев

Похожие вакансии
Digital Product Owner для вклада и накопительных счетов
Wildberries Банк·300K ₽–500K ₽
AI Visual Creator для создания фотореалистичных изображений
110K ₽–180K ₽
QA-инженер — JIRA — проектов в Digital Products
Цифровые привычки·190K ₽–230K ₽
Проджект-менеджер для отдела Business Operations
Dream Offer·4K ₽–5K ₽
Middle/Senior PHP Backend-разработчик — Symfony и микросервисы
5K ₽
Performance Аналитик — нагрузочное тестирование в финтех
Vadarod·4K ₽–10K ₽
Авитолог — оптимизация объявлений на Avito
110K ₽–180K ₽
Integration Manager — API
IREV·49 ₽–87 ₽
Бизнес-системный аналитик — оптимизация процессов для крипто-брокеров
CompanionVille·180K ₽–320K ₽
Системный аналитик — работа в финтехе
PayDepot·200K ₽–300K ₽
QA-инженер — ClickHouse
235K ₽
Retention Marketing Manager — управление удержанием пользователей
Ayni Gold·110K ₽–180K ₽
Product Manager для развития канала OfferInside
OfferInside·180K ₽
Технический специалист Bitrix — настройка email-цепочек и сопровождение рассылок
110K ₽–180K ₽
Архитектор решений — проектирование архитектуры приложений
Банк России·180K ₽–320K ₽