MAX_DOT_SH Telegram 143
Подборка ресурсов для изучения RL в контексте LLM

Методы пост-тренировки — RLHF, GRPO, DPO и другие — очень быстро эволюционируют и становятся "повседневным" инструментом ML-инженеров. Это особенно заметно с появлением концепции верифицируемых ревордов (подробнее тут):
➡️провайдеры вроде OpenAI предлагают RL-файнтюн на ваших данных через API
➡️open-source стремительно наполняется библиотеками и рецептами
⚡️на интервью все чаще встречаются секции или вопросы посвященные RL (из того что вижу, как правило в рамках ML Design round, но бывает и в ML Breadth части).

Поэтому понимать инженерные аспекты и ключевые идеи (зачем нужен Reward Model, что такое Reward Hacking, почему используется KL в оптимизационной задаче) становится крайне актуально. Как в работе, так и на собеседованиях.

Собрал подборку материалов, чтобы плавно войти в тему. Исходил из того, что читатель не заком с RL (только базовым ML), материалы написаны простым языком, но со всеми формулами и ссылками на статьи, а авторы — уважаемые в сообществе исследователи.

Поехали:

1️⃣ Введение в RLHF в лонг-риде от Chip Huyen. Ссылка. Пост от 23 года, но лучшее введение по теме найти сложно. Все стадии подробно расписаны, после него уже можно браться за статьи.

2️⃣ Почитать про RL в действии на примере файн-тюна модели, которую учат писать эффективный GPU код. Блогпост
➡️ Посмотреть на все еще раз через примеры в интерактивном бесплатном мини-курсе Reinforcement Fine-Tuning LLMs With GRPO

3️⃣ Теперь готовы к более глубоким материалм и обоснованиям всех выкладок. Бесплатная онлайн-книга от Nathan Lambert (Research Scientist, Allen AI) - Reinforcement Learning from Human Feedback.
➡️ Пост был написан в целом ради пункта 3. На мой взгляд, найти более полный актуальный справочник сложно.
➡️В дополнение, если хочется посмотреть на другое изложение, прекрасный гид по широкому спектру LLM тем, включая все концепции RL на comfyai.app

4️⃣ К этому моменту скорее всего ключевые идеи RL тюнинга для LLM уже понятны. Дальше Есть несколько путей: a) идти читать статьи про свежие подходы. b) идти применять к своим задачам, то есть копаться в инженирии, но уже очень осознанно. c) углубиться в базовую теорию RL и прочувствовать все методы в общем виде (а не упрощенном).
➡️ Плейлист академических лекций курса David Silver из DeepMind из далекого 2015-го. Ссылка. От Марковсих процессов до Многоруких бандитов. Курс предполагает только знания матана и тер вера.
➡️ Перезапуск этого же курса от 2018 года с обновленным материалом и включением тем типа DQN (но курс уже не такой целостный, потому что лекции ведут разные авторы). Ссылка

5️⃣ Заканчиваем все книгой отца RL, Sutton-ом, и его Reinforcement Learning: An Introduction, второе издание. Ссылка


💬 Если есть интересные материалы, кидайте в комментарии, буду рад добавить/почитать

😀 Если откликается формат, буду рад огонькам и комментариям с идеями про что еще хотели бы почитать)

#образование
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥4610👍72👏1👾1



tgoop.com/max_dot_sh/143
Create:
Last Update:

Подборка ресурсов для изучения RL в контексте LLM

Методы пост-тренировки — RLHF, GRPO, DPO и другие — очень быстро эволюционируют и становятся "повседневным" инструментом ML-инженеров. Это особенно заметно с появлением концепции верифицируемых ревордов (подробнее тут):
➡️провайдеры вроде OpenAI предлагают RL-файнтюн на ваших данных через API
➡️open-source стремительно наполняется библиотеками и рецептами
⚡️на интервью все чаще встречаются секции или вопросы посвященные RL (из того что вижу, как правило в рамках ML Design round, но бывает и в ML Breadth части).

Поэтому понимать инженерные аспекты и ключевые идеи (зачем нужен Reward Model, что такое Reward Hacking, почему используется KL в оптимизационной задаче) становится крайне актуально. Как в работе, так и на собеседованиях.

Собрал подборку материалов, чтобы плавно войти в тему. Исходил из того, что читатель не заком с RL (только базовым ML), материалы написаны простым языком, но со всеми формулами и ссылками на статьи, а авторы — уважаемые в сообществе исследователи.

Поехали:

1️⃣ Введение в RLHF в лонг-риде от Chip Huyen. Ссылка. Пост от 23 года, но лучшее введение по теме найти сложно. Все стадии подробно расписаны, после него уже можно браться за статьи.

2️⃣ Почитать про RL в действии на примере файн-тюна модели, которую учат писать эффективный GPU код. Блогпост
➡️ Посмотреть на все еще раз через примеры в интерактивном бесплатном мини-курсе Reinforcement Fine-Tuning LLMs With GRPO

3️⃣ Теперь готовы к более глубоким материалм и обоснованиям всех выкладок. Бесплатная онлайн-книга от Nathan Lambert (Research Scientist, Allen AI) - Reinforcement Learning from Human Feedback.
➡️ Пост был написан в целом ради пункта 3. На мой взгляд, найти более полный актуальный справочник сложно.
➡️В дополнение, если хочется посмотреть на другое изложение, прекрасный гид по широкому спектру LLM тем, включая все концепции RL на comfyai.app

4️⃣ К этому моменту скорее всего ключевые идеи RL тюнинга для LLM уже понятны. Дальше Есть несколько путей: a) идти читать статьи про свежие подходы. b) идти применять к своим задачам, то есть копаться в инженирии, но уже очень осознанно. c) углубиться в базовую теорию RL и прочувствовать все методы в общем виде (а не упрощенном).
➡️ Плейлист академических лекций курса David Silver из DeepMind из далекого 2015-го. Ссылка. От Марковсих процессов до Многоруких бандитов. Курс предполагает только знания матана и тер вера.
➡️ Перезапуск этого же курса от 2018 года с обновленным материалом и включением тем типа DQN (но курс уже не такой целостный, потому что лекции ведут разные авторы). Ссылка

5️⃣ Заканчиваем все книгой отца RL, Sutton-ом, и его Reinforcement Learning: An Introduction, второе издание. Ссылка


💬 Если есть интересные материалы, кидайте в комментарии, буду рад добавить/почитать

😀 Если откликается формат, буду рад огонькам и комментариям с идеями про что еще хотели бы почитать)

#образование

BY max.sh


Share with your friend now:
tgoop.com/max_dot_sh/143

View MORE
Open in Telegram


Telegram News

Date: |

Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. best-secure-messaging-apps-shutterstock-1892950018.jpg In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members.
from us


Telegram max.sh
FROM American