Вакансия • NLP инженер (GigaChat), Москва
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а работать с реально большими данными, то вот твой шанс :)
Подробнее о том, чем занимается команда можно посмотреть в докладе от лида команды Ивана Баскова на HighLoad++ 2024 Как мы варим данные Gigachat Pretrain
Обязанности- чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback
- делать пайплайны для экспериментов (модели 400M – 32B), всё красиво в wandb
- фильтровать данные так, чтобы метрики росли
- доставать из книг задачи по математике → сиды для синтетики
- генерить синтетические данные → на тысячах GPU
- разбираться с токенизацией → сколько букв r в strawberry ?
- кластеризовать данные → чистим данные от мусора, прежде чем модель начнёт верить в астрологию
- писать дедупликацию на Rust → миллиарды документов, но не за O(n²)
- оптимизировать MapReduce → Spark, тысячи ядер (опыт с YTsaurus - плюс)
- экспериментировать с SFT и RL → DPO, DRPO, увеличиваем качество синтетики.
- выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий и/или имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет
Будет плюсом:
- навыки работы с генеративными AI-моделями опыт создания AI-агентов и использования их в работе будет преимуществом
- опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
- инструментальное владение AI для анализа, генерации и автоматизации.
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- льготная программа ипотеки для сотрудников
- бесплатная подписка Сбер Прайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
ПОДЕЛИТЬСЯ
Похожие вакансии:
Работа в России, Москва - Свежие вакансии на Kit-Jobs.Ru
Работа в городах России - свежие вакансии (469928) на Kit-Jobs.Ru: Вакансия работодателя • СБЕР - NLP инженер (GigaChat), Москва. Здесь Вы можете ознакомиться с вакансией работодателя бесплатно онлайн.
Наш портал является бесплатным онлайн сервисом поиска работы по базе вакансий от прямых работодателей, по размеру заработной платы и прочим параметрам в регионе Москва. На портале также имеются такие разделы как: ежедневно обновляемая база свежих вакансий по всем городам России, юридические консультации, сервисы, форма для создания резюме онлайн в формате .DOC, новости рынка труда России и другие разделы.