Рецепты обучения Reasoning моделей от💻 Сразу 2 публикации:
Phi-4-reasoning (14B) - основная модель -
статья.
Phi-4-mini-reasoning (3.8B) - маленькая модель -
статья.
Веса моделей доступны по хорошей лицензии. За пределами английского ризонинг сильно хуже (об этом пишут и авторы), и скорее всего из коробки бесполезен (сужу сам по работе просто с Phi-4 instruct).
📌 Почему стоит прочитать? Рабочих робастных рецептов обучения ризонинг моделей все еще не очень много, поэтому любая работа с подробным описанием сетапа, удачными и неудачными экспериментами, рассказом о сборе данных и любыми другими практическими lessons learned несет большую ценность для всех, кто пытается завести ризонинг на практике. По метрикам модель не обгоняет проприетарные модели, уступая o3-мини почти везде, но уверенно тягается с опенсоурсными решениями, которые в разы больше. Вся ценность в подробном hands-on репорте, а не самой модели как таковой.
Картинка 1 для саммри перформанса на ключевых бенчмарках.
📌Как устроена Phi-4-reasoning. Берут предобученную instruct tuned 14B Phi-4 (
тык ). Ризонинг способности внедряются в нее через SFT на датасете длинных цепочек из разных доменов.
Датасет собирался аккуратно. В основном путем скрэпинга и валидации разных ресурсов из сети с фокусом на математику и код. Отдельно отбирали с помощью прокси моделей только сложные задачи. Сами же цепочки рассуждений генерировали с помощью o3-mini в “medium” / “hard” рассуждающих режимах.
Во время обучения авторы столкнулись с тем, что гиперпараметры рецепта Phi-4 не работают для ризонинг модели.
Поэтому ввели стадию коротких экспериментов на сабсете данных. Назвали это Exploration Stage, чтобы подобрать оптимальные настройки:
🔘 Выбрали оптимальный LR как 1e-5
🔘 Нашли оптимальную композицию микса обучающих данных. Для начала кластеризовали данные по доменам (математика, код, …). Дальше подобрали веса к датасетам внутри конкретного домена в зависимости от качества / источника данных. То есть, отдельно учили на данных по математике, оптимизируя микс данных чисто под данные математики; отдельно для кода; А потом просто все объединили в один общий пул, переиспользуя ранее подобранные веса.
🔘Добавили синтетических данных в строгом формате CoT -> summary -> final response. Обнаружили, что это дает буст, на AIME до 10%.
Далее, во второй фазе, Scaling Stage, запустили обучение на всех данных, 16B токенов. У модели так же расширили размер контекста с 16K до 32K.
Таким образом, получился Phi-4-reasoning.
📌Еще больше reasoning способностей через RL. Далее бустят способности модели к размышлению еще больше. Делают GRPO RL, но только на задачах математики. Собрали свою reward функцию. Довольно инженерная и интуитивная. Если ответ правильный, но очень длинный - понижаем награду; если неправильный и короткий - еще сильнее штрафуем. Таким образом, побуждаем генерировать модель разумно длинные цепочки. После такого RL тюна получают Phi-4-reasoning-plus, которая в среднем показывает себя еще лучше на различных бенчмарках (не математических тоже).
📌RL-reasoning маленьких моделей. Очень круто, что авторы пробуют ризонинг способности на маленьких моделях тоже. При RL обучении модели на 3.8B сталкиваются с большим количеством сложностей, предполагая, что все дело в размере модели:
🔘Во время обучения сгенерированные ответы сильно различаются по длине на одном и том же промпте.
🔘Батчи могут целиком состоять из отрицательных наград
🔘SFT на ризонинг данных (типа
S1K) ухудшает итоговое качество
По итогу все равно подбирают рабочий рецепт для мини версии модели для математики, получая улучшения относительно аналогов похожего размера (7B, 8B). Но с гигантами тягаться все равно сложно.
📎Итого. Полезное чтение для практикующих обучение ризонигу. Мы в команде сталикались с очень похожими сложностями при RL стадии маленьких моделей. До закрытых моделей далеко, но зон для надстроек над базовым рецептом много.
#статья
@max_dot_sh