MACHINELEARNING_BOOKS Telegram 1215
✔️ Новый подход к «мышлению» малых моделей

Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.

С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.

Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.

Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс.
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.

Три параметра управляют поведением:
- pool size - охват решений
- group size - скорость смешивания
- step count - глубина размышления

Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.

Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.

Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.

Подробнее - arxiv.org/abs/2509.26626
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2



tgoop.com/machinelearning_books/1215
Create:
Last Update:

✔️ Новый подход к «мышлению» малых моделей

Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.

С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.

Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.

Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс.
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.

Три параметра управляют поведением:
- pool size - охват решений
- group size - скорость смешивания
- step count - глубина размышления

Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.

Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.

Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.

Подробнее - arxiv.org/abs/2509.26626

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1215

View MORE
Open in Telegram


Telegram News

Date: |

Channel login must contain 5-32 characters On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American