Вакансия • MlOps inference engineer, Москва

New,

📆 2026-04-01

Работа • Москва

З/п по договоренности ք

HeadHunter (Вакансия работодателя)

Адрес места работы:

Москва, 2-я Брестская улица, 48

Данные по вакансии

Тип занятости:

График работы:

Должностные обязанности

Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера, который поможет в развитии инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу.

Обязанности:

Разработка и оптимизация инфраструктуры инференса LLM‑моделей.
Performance-tunning llm моделей, поиск точек деградации или кейсов оптимизации на основе реальных логов
Помощь в capacity-планировании командам-заказчикам
Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (sglang, vLLM, TensorRT‑LLM).
Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU‑нагрузок

Ключевые знания и навыки:

Глубокая экспертиза в архитектуре и инференсе больших языковых моделей.
Понимание устройства моделей (трансформеры, BERT, LLM и т.д.)
Опыт построения высокопроизводительных LLM‑сервисов с использованием vLLM, TensorRT‑LLM/FasterTransformer/Triton Inference Server/etc.
Знание методов оптимизации и ускорения LLM‑инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding.
Понимание нюансов распределенных систем и GPU‑коммуникации (NCCL, MPI, RDMA, InfiniBand).
Опыт в управлении кластером для LLM‑нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе.
Уверенное владение Python
Знание инструментов профилирования GPU (nvidia‑smi, Nsight, TensorRT Profiler).
Опыт участия в архитектурном дизайне крупных AI‑платформ
Опыт управления командой инженеров.
Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей.

Будет преимуществом:

Опыт построения LLM‑сервисов с потоковой генерацией токенов (streaming inference).
Знание особенностей служебных компонентов LLM‑пайплайна: токенизаторы, KV‑кэш, контекстное окно.
Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности.
Участие в проектах по оптимизации инфраструктуры для LLM‑инференса на уровне платформы (multi‑tenant LLM serving, dynamic batching).
Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG‑решений и не только.

Что предлагаем мы:

Возможность выбора формата работы: гибрид, удаленно или из офиса
Гибкий график
Корпоративный ДМС со стоматологией c первого месяца работы
Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов
Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер
Кофе в кофемашинах, чай, печенье, фрукты на кухне
Электронная корпоративная библиотека
Молодой, профессиональный и дружный коллектив
Возможность профессионального развития, обучения за счет компании, участия в конференциях
Достойный уровень заработной платы
Совместную постановку целей и индивидуальный план развития

Требования к кандидату

Опыт работы (лет): Более 6 лет

Контактная информация

Адрес на карте:

Москва, 2-я Брестская улица, 48

Updated: 01 April 2026

Работа в России актуальные вакансии: поиск работы и подбор персонала бесплатно

Похожие вакансии:

📆 2026-03-26

Работа • Москва

ML инженер / AI инженер

Москва •

Русский Экспресс

📆 2026-03-28

Работа • Москва

Системный аналитик

Москва •

CORE

З/п: от 200000 RUR

📆 2026-03-25

Работа • Москва

ML-инженер (Junior+ / Middle)

Москва •

Лэндэр-Инвест

З/п: от 400000 RUR

📆 2026-04-01

Работа • Москва

Инженер по машинному обучению и искусственному интеллекту (ML / AI Developer)

Москва •

Дабл Ап

З/п: от 150000 до 200000 RUR

📆 2026-03-27

Работа • Москва

Системный аналитик (Full-stack)

Москва •

Деко Системс

📆 2026-03-25

Работа • Ташкент

AI specialist

Ташкент •

ООО ULTRADECOR

Работа в России, Москва - Свежие вакансии на Kit-Jobs.Ru

Работа в городах России - свежие вакансии (469924) на Kit-Jobs.Ru: Вакансия работодателя • HeadHunter - MlOps inference engineer, Москва. Здесь Вы можете ознакомиться с вакансией работодателя бесплатно онлайн.

Наш портал является бесплатным онлайн сервисом поиска работы по базе вакансий от прямых работодателей, по размеру заработной платы и прочим параметрам в регионе Москва. На портале также имеются такие разделы как: ежедневно обновляемая база свежих вакансий по всем городам России, юридические консультации, сервисы, форма для создания резюме онлайн в формате .DOC, новости рынка труда России и другие разделы.

Возможно вам это интересно:

ОНЛАЙН ТЕСТЫ

ПСИХОЛОГИЧЕСКИЕ ТЕСТЫ ПРИ ПРИЕМЕ НА РАБОТУ БЕСПЛАТНО БЕЗ РЕГИСТРАЦИИ!!!

Работа в России актуальные вакансии: поиск работы и подбор персонала бесплатно

Сбор на IT-проект

Вам подарок от ВТВ уже упакован! Забери подарок! 16+

Вам подарок от ВТВ уже упакован! 16+

Wednesday 01 April 2026

Работа в Москве, вакансия - MlOps inference engineer • Москва - id382

Вакансия • MlOps inference engineer, Москва

Работа в России, Москва - Свежие вакансии на Kit-Jobs.Ru

Возможно вам это интересно:

Бесплатный тест на iq Айзенка

Японский IQ тест для IT

Тесты при приеме на работу