tgoop.com/data_analysis_ml/3813
Last Update:
🚀 Fine-tuning LLM с помощью RL — это несложно!
Вот минимальная реализация GRPO/PPO для Qwen3 на JAX — всего ~400 строк кода от начала до конца.
Что внутри:
- GRPO (Gradient-Regularized PPO) и PPO, реализованные с нуля
- Поддержка Qwen3, open LLM от Alibaba
- JAX-first подход: чистый, модульный и легко читаемый код
- Простая архитектура для быстрого ресёрча и экспериментов
Особенности:
- Без лишней магии и абстракций — всё прозрачно
- Минимум зависимостей
- Отличный старт для тех, кто хочет разобраться в LLM+RLHF
Подходит для:
- Исследователей, изучающих RL на языковых моделях
- Разработчиков, которые хотят понять PPO руками
- Всех, кто хочет обучать LLM «по-честному»
🧠 Хочешь разобраться в fine-tuning LLM через RLHF — начни с этого простого и понятного репозитория!
📦 Репозиторий: https://github.com/kvfrans/lmpo
BY Анализ данных (Data analysis)

Share with your friend now:
tgoop.com/data_analysis_ml/3813