Middle RL - Engineer (GigaChat Vision)

От 1 года до 3 летПолный деньМосква16 июня 2026 г.

Требования

Глубокое понимание RL для LLM/VLM (RLHF, GRPO, PPO) и практический опыт. Понимание полного цикла обучения VLM/LLM (pretrain → SFT...

Обязанности

Разрабатывать и улучшать RL-подходы для обучения VLM/LLM-моделей: выбор алгоритмов, постановка экспериментов и анализ результатов. Проектировать reward-функции...

Откликнуться Автоотклик с ИИ

Отправляйте отклики быстрее

AFK Offer помогает отправлять отклики на подходящие вакансии с персонализированными сопроводительными письмами. Попробуйте 24 часа бесплатно.

Начать бесплатно

Назад к вакансиям «Data Science»