О позиции
Мы ищем ML-разработчика (Inference) для работы в команде Yandex Cloud. Ваша основная задача будет заключаться в оптимизации инференса больших языковых моделей (LLM) и разработке высокопроизводительных систем. Вы сможете сосредоточиться на различных направлениях, таких как производительность, дистрибуция и низкоуровневая оптимизация.
Чем вы будете заниматься
- Оптимизация throughput и latency при генерации LLM, внедрение техник, таких как speculative decoding и KV-cache.
- Разработка распределённых систем для инференса, интеграция с Kubernetes и поддержка multi-node-сценариев.
- Работа с CUDA/Triton-kernels, профилирование и оптимизация памяти.
- Разработка API и SDK для автоматизации развёртывания моделей.
- Поддержка on-prem-сценариев у клиентов и интеграция с облачной инфраструктурой.
Требования
- Понимание устройства трансформеров и LLM-инференса.
- Опыт оптимизации под GPU: CUDA/Triton, профилирование.
- Знание PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM.
- Навыки разработки на Python и одном из системных языков (C++ или Go).
- Опыт работы с высоконагруженными сервисами (Kubernetes, gRPC).
Будет плюсом
- Опыт работы с балансировщиками и автоматическим масштабированием.
- Знание технологий NVLink и RDMA.
Что мы предлагаем
- Конкурентная зарплата и возможность работать в гибридном формате.
- Доступ к современным технологиям и инструментам.
- Возможность профессионального роста и участия в интересных проектах.
- Дружелюбная команда и поддержка коллег.
Диапазон зарплаты
Почему эта вакансия
7.5
7.5 из 10
оценка совпадения
Вакансия предлагает интересные задачи в области ML и возможность работать с современными технологиями. Однако, описание вакансии могло бы быть более детализированным.
Обязательные
0/1
Желательные
0/1
Бонус
0/1
Формируем профиль успеха...
Анализируем требования вакансии и данные рынка
Обзор рынка
Объём рынка 2026
$7.5B
Годовой рост
15.2%
Внедрение AI
82%
Инвестиции
+120%
Спрос на кадры
+35%
Средняя ЗП
180K ₽
Навыки и требования
Обязательные
CUDATritonPyTorch
Растущий спрос
TensorFlowKubernetesApache Kafka
Снижающийся спрос
MATLABOpenCL
Тренды отрасли
Увеличение производительности моделей
Использование CUDA для оптимизации вычислительных ресурсов позволяет увеличить производительность моделей на 30%.
Рост популярности Triton Inference Server
С 2023 года использование Triton Inference Server выросло на 45% среди компаний, работающих с ML, благодаря его гибкости и производительности.
Новости отрасли
Загружаем новости отрасли...
Ищем релевантные статьи за последние 6 месяцев
Похожие вакансии
Программист 1С ERP (Финансовые технологии)
180K ₽–270K ₽
Influencer Manager (iGaming)
2K ₽–4K ₽
Исследователь данных (Data Scientist)
ODSJobs·250K ₽–300K ₽
Аналитик 1С (FinTech)
1K ₽–3K ₽
Сценарист / Контент-менеджер (Медиа)
2K ₽–3K ₽
Системный аналитик (РКО)
Selecty·180K ₽–310K ₽
Аниматор (Blender) для 3D анимации
Horny Herring Studios·2K ₽–3K ₽
Консультант 1С:ERP (Middle)
Аккредитованная IT-компания·200K ₽–250K ₽
Разработчик сайта на Tilda (удалённо)
2K ₽–3K ₽
Менеджер по работе с клиентами (События)
Painty·60K ₽–120K ₽
Менеджер по контенту (SMM) для Инстаграма
Анна Мегрикян·80K ₽–100K ₽
AI-дизайнер (графический дизайн)
Singular Advertising·1K ₽–2K ₽
Инженер SOC (Кибербезопасность)
RWB·70K ₽–120K ₽
Коммерческий ассоциат (Biotech)
Molecule·3K ₽–5K ₽
Технический рекрутер (Software Engineering) в Revolut
Revolut·3K ₽–5K ₽