tgoop.com/machinelearning_interview/1954
Last Update:
🎓 Новые лекции от UCLA: *Reinforcement Learning of Large Language Models* (весна 2025)
Свежий курс, полностью посвящённый обучению LLM с помощью RL. Отличный ресурс для тех, кто хочет разобраться не только в RLHF, но и в новых направлениях, которые появляются на стыке обучения с подкреплением и больших языковых моделей.
📚 Что в курсе:
– Базовые принципы RL применительно к LLM
– RLHF (reinforcement learning from human feedback)
– RL с верифицируемыми наградами (RLVR)
– RL на этапе inference: оптимизация в момент выполнения
– Архитектуры, policy shaping, reward modeling и др.
Это не просто обзор — это системная попытка осмыслить будущее RL для LLM, где важно не только fine-tuning, но и работа с обратной связью в режиме реального времени, доверие к награде и оптимизация вычислений.
🧠 Полезно всем, кто:
– интересуется агентами и автономными системами
– работает над LLM‑продуктами
– хочет выйти за пределы SFT и попробовать более «горькие» методы обучения
#LLM #RLHF #RLVR #AIeducation #ReinforcementLearning #UCLA