О позиции
Мы ищем ML-разработчика (Inference) для работы в команде Yandex Cloud. Ваша основная задача будет заключаться в оптимизации инференса больших языковых моделей (LLM) и разработке высокопроизводительных систем. Вы сможете сосредоточиться на различных направлениях, таких как производительность, дистрибуция и низкоуровневая оптимизация.
Чем вы будете заниматься
- Оптимизация throughput и latency при генерации LLM, внедрение техник, таких как speculative decoding и KV-cache.
- Разработка распределённых систем для инференса, интеграция с Kubernetes и поддержка multi-node-сценариев.
- Работа с CUDA/Triton-kernels, профилирование и оптимизация памяти.
- Разработка API и SDK для автоматизации развёртывания моделей.
- Поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.
Требования
- Понимание устройства трансформеров и LLM-инференса.
- Опыт оптимизации под GPU: CUDA/Triton, профилирование.
- Знание PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
- Навыки разработки на Python и одном из системных языков (C++ или Go).
- Опыт работы с высоконагруженными сервисами (Kubernetes, gRPC).
Будет плюсом
- Опыт работы с балансировщиками и автоматическим масштабированием.
- Знание технологий NVLink и RDMA.
Что мы предлагаем
- Конкурентная зарплата и возможность работать в гибридном формате.
- Доступ к современным технологиям и инструментам.
- Возможность профессионального роста и участия в интересных проектах.
- Дружелюбная команда и поддержка коллег.
Обязательные
0/1
Желательные
0/1
Бонус
0/1
Почему эта вакансия
7.5
7.5 из 10
оценка совпадения
Вакансия предлагает интересные задачи в области ML и возможность работать с современными технологиями. Однако, описание вакансии могло бы быть более детализированным.
Формируем профиль успеха...
Анализируем требования вакансии и данные рынка
Обзор рынка
Объём рынка 2026
$7.5B
Годовой рост
15.2%
Внедрение AI
82%
Инвестиции
+120%
Навыки и требования
Обязательные
CUDATritonPyTorch
Растущий спрос
TensorFlowKubernetesApache Kafka
Снижающийся спрос
MATLABOpenCL
Тренды отрасли
Увеличение производительности моделей
Использование CUDA для оптимизации вычислительных ресурсов позволяет увеличить производительность моделей на 30%.
Рост популярности Triton Inference Server
С 2023 года использование Triton Inference Server выросло на 45% среди компаний, работающих с ML, благодаря его гибкости и производительности.
Новости Cloud Services
Загружаем новости отрасли...
Ищем релевантные статьи за последние 6 месяцев
Похожие вакансии
Digital Product Owner для вклада и накопительных счетов
Wildberries Банк·300K ₽–500K ₽
AI Visual Creator для создания фотореалистичных изображений
110K ₽–180K ₽
QA-инженер — JIRA — проектов в Digital Products
Цифровые привычки·190K ₽–230K ₽
Проджект-менеджер для отдела Business Operations
Dream Offer·4K ₽–5K ₽
Middle/Senior PHP Backend-разработчик — Symfony и микросервисы
5K ₽
Performance Аналитик — нагрузочное тестирование в финтех
Vadarod·4K ₽–10K ₽
Авитолог — оптимизация объявлений на Avito
110K ₽–180K ₽
Integration Manager — API
IREV·49 ₽–87 ₽
Бизнес-системный аналитик — оптимизация процессов для крипто-брокеров
CompanionVille·180K ₽–320K ₽
Системный аналитик — работа в финтехе
PayDepot·200K ₽–300K ₽
QA-инженер — ClickHouse
235K ₽
Retention Marketing Manager — управление удержанием пользователей
Ayni Gold·110K ₽–180K ₽
Product Manager для развития канала OfferInside
OfferInside·180K ₽
Технический специалист Bitrix — настройка email-цепочек и сопровождение рассылок
110K ₽–180K ₽
Архитектор решений — проектирование архитектуры приложений
Банк России·180K ₽–320K ₽