tgoop.com/machinelearning_books/1215
Last Update:
Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.
С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.
Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.
Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс.
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.
Три параметра управляют поведением:
- pool size - охват решений
- group size - скорость смешивания
- step count - глубина размышления
Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.
Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.
Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.
Подробнее - arxiv.org/abs/2509.26626