Warning: file_put_contents(aCache/aDaily/post/AGI_and_RL/-1110-1111-1112-1113-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Агенты ИИ | AGI_and_RL@AGI_and_RL P.1112
AGI_AND_RL Telegram 1112
ллмный RL апдейтит лишь 5%-30% весов
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель

Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов

Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711

PS собираем всякое крутое по ИИ и проектики делаем в https://www.tgoop.com/researchim
👍116🔥4



tgoop.com/AGI_and_RL/1112
Create:
Last Update:

ллмный RL апдейтит лишь 5%-30% весов
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель

Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов

Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711

PS собираем всякое крутое по ИИ и проектики делаем в https://www.tgoop.com/researchim

BY Агенты ИИ | AGI_and_RL







Share with your friend now:
tgoop.com/AGI_and_RL/1112

View MORE
Open in Telegram


Telegram News

Date: |

Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. 5Telegram Channel avatar size/dimensions Administrators Today, we will address Telegram channels and how to use them for maximum benefit. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.!
from us


Telegram Агенты ИИ | AGI_and_RL
FROM American