Подборка ресурсов для изучения RL в контексте LLM
Методы пост-тренировки — RLHF, GRPO, DPO и другие — очень быстро эволюционируют и становятся "повседневным" инструментом ML-инженеров. Это особенно заметно с появлением концепции верифицируемых ревордов (подробнее
тут):➡️провайдеры вроде OpenAI предлагают RL-файнтюн на ваших данных через API
➡️open-source стремительно наполняется библиотеками и рецептами
⚡️на интервью все чаще встречаются секции или вопросы посвященные RL (из того что вижу, как правило в рамках ML Design round, но бывает и в ML Breadth части).
Поэтому понимать инженерные аспекты и ключевые идеи (зачем нужен Reward Model, что такое Reward Hacking, почему используется KL в оптимизационной задаче) становится крайне актуально. Как в работе, так и на собеседованиях.
Собрал подборку материалов, чтобы плавно войти в тему. Исходил из того, что читатель не заком с RL (только базовым ML), материалы написаны простым языком, но со всеми формулами и ссылками на статьи, а авторы — уважаемые в сообществе исследователи.
Поехали:
1️⃣ Введение в RLHF в лонг-риде от Chip Huyen.
Ссылка. Пост от 23 года, но лучшее введение по теме найти сложно. Все стадии подробно расписаны, после него уже можно браться за статьи.
2️⃣ Почитать про RL в действии на примере файн-тюна модели, которую учат писать эффективный GPU код.
Блогпост ➡️ Посмотреть на все еще раз через примеры в интерактивном бесплатном мини-курсе
Reinforcement Fine-Tuning LLMs With GRPO 3️⃣ Теперь готовы к более глубоким материалм и обоснованиям всех выкладок. Бесплатная онлайн-книга от Nathan Lambert (Research Scientist, Allen AI) -
Reinforcement Learning from Human Feedback. ➡️ Пост был написан в целом ради пункта 3. На мой взгляд, найти более полный актуальный справочник сложно.
➡️В дополнение, если хочется посмотреть на другое изложение, прекрасный гид по широкому спектру LLM тем, включая все концепции RL на
comfyai.app4️⃣ К этому моменту скорее всего ключевые идеи RL тюнинга для LLM уже понятны. Дальше Есть несколько путей: a) идти читать статьи про свежие подходы. b) идти применять к своим задачам, то есть копаться в инженирии, но уже очень осознанно. c) углубиться в базовую теорию RL и прочувствовать все методы в общем виде (а не упрощенном).
➡️ Плейлист академических лекций курса David Silver из DeepMind из далекого 2015-го.
Ссылка. От Марковсих процессов до Многоруких бандитов. Курс предполагает только знания матана и тер вера.
➡️ Перезапуск этого же курса от 2018 года с обновленным материалом и включением тем типа DQN (но курс уже не такой целостный, потому что лекции ведут разные авторы).
Ссылка5️⃣ Заканчиваем все книгой отца RL, Sutton-ом, и его Reinforcement Learning: An Introduction, второе издание.
Ссылка💬 Если есть интересные материалы, кидайте в комментарии, буду рад добавить/почитать
😀 Если откликается формат, буду рад огонькам и комментариям с идеями про что еще хотели бы почитать)
#образование