Учимся с GRPO генерить длинные тексты

Агенты ИИ | AGI_and_RL

Учимся с GRPO генерить длинные тексты

В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B.

Представим что мы хотим научить ллмку книги писать.
Вместо генерации всей книги, будем учить модель генерировать одну следующую главу, используя Story Information с предыдущей главы:

High-level story sketch — краткий план всей книги;
Previous summary — краткое содержание предыдущих глав;
Character sheets — описание ключевых персонажей;
Previous chapter — сама последняя глава;
Next chapter synopsis — краткий план следующей главы (для оценки, не для генерации).

И так как у нас GRPO, у нас есть
текущая моделька политики, которая зовется в работе reasoning-модель (πᴿ)
и генератор (πᴳ) - это reference моделька.

Сначала reasoning-модель (πᴿ) генерирует reasoning trace — рассуждения, заканчивающиеся детальным планом главы (p̂). Затем генератор (πᴳ) пишет главу на основе этого плана.

Вводят percent improvement in per-token perplexity (PPL) которая измеряет улучшение вероятности генерации правильной главы (y) при добавлении reasoning trace (плана a):

I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100

(perplexity считается по распределнию токенов в y)
a - это план следующей главы, x - story information, y - сгенеренная глава.
Ревард на основе percent improvement смотрим на 4 скрине.

Датасет
30 книг, опубликованных в 2024+ (чтобы избежать утечек в обучении моделей); 22 книги в обучении, 4 в валидации, 4 в тесте.
Весь объем: 1000+ обучающих примеров;

Используются сводки глав, образы персонажей, предыдущие главы.

Сравнивали четыре варианта:

Base — просто генерация главы по SI.
Base-Reasoning — сначала размышляет а потом по трейсу размышлений генерит главу.
SFT — генерация после supervised-файнтюнинга на следующей главе.
RL-Trained — reasoning обучен через VR-CLI.

Оценка по критериям: сюжет, персонажи, развитие, креативность, стиль, общая предпочтительность. Работу оценивали люди через парные сравнения.

В результате имеем:
RL-trained модель - лидер почти по всем метрикам.
Особенно хорошо reasoning работает в жанре Sci-fi и Fantasy.
(3-4 скрины)

Так понял
Статью читаем, там еще куча инфы

Learning to Reason for Long-Form Story Generation
https://arxiv.org/abs/2503.22828

https://github.com/Alex-Gurung/ReasoningNCP

PS собираемся и собираем инфу по AI в https://www.tgoop.com/researchim

❤‍🔥11🔥4👏1

www.tgoop.com/AGI_and_RL/1021

2.14K viewsApr 11 at 13:01

tgoop.com/AGI_and_RL/1021

Create: 2025-04-11
Last Update: 2025-08-04 15:40:36

I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100

BY Агенты ИИ | AGI_and_RL

Share with your friend now:
tgoop.com/AGI_and_RL/1021

Telegram News

Учимся с GRPO генерить длинные тексты