
СБЕР
Вчера
Middle RL - Engineer (GigaChat Vision)
От 1 года до 3 летПолный деньМосква22 мая 2026 г.
Требования
Глубокое понимание RL для LLM/VLM (RLHF, GRPO, PPO) и практический опыт. Понимание полного цикла обучения VLM/LLM (pretrain → SFT...
Обязанности
Разрабатывать и улучшать RL-подходы для обучения VLM/LLM-моделей: выбор алгоритмов, постановка экспериментов и анализ результатов. Проектировать reward-функции...
Откликайтесь автоматически
AFK Offer автоматически откликается на подходящие вакансии с персонализированными сопроводительными письмами. Попробуйте 24 часа бесплатно.
Начать бесплатно