Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/quant_prune_distill/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
КПД@quant_prune_distill P.526
QUANT_PRUNE_DISTILL Telegram 526
Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
[Блогпост]

Для ускорения обучения RL-методов с роллаутами, некоторые фреймворки (VeRL) генерируют траектории с помощью оптимизированных движков инференса, например, vLLM.

Однако, расхождение между разными фреймворками инференса (transformers 🤗 / vLLM) может быть довольно значительным (из-за деталей реализации кернелов). Причем настолько, что при тех же самых весах модели, предсказания могут существенно разняться (другой выбор следующего токена).

Авторы блогпоста замечают, что данная проблема делает on-policy RL по сути off-policy, что негативно сказывается на сходимости.

В качестве решения проблемы предлагается делать своего рода importance sampling с отношением вероятностей модели в фреймворке обучения и инференса. И это хорошо помогает PPO, причем можно даже генерировать роллауты int8 квантизованной моделью без нарушения сходимости. DAPO поверх DeepSeek-R1-Distill-Qwen-1.5B, где отношение вероятностей невелико, работает хорошо и без importance sampling.

Выводы

Мораль басни такова, что численные неточности в DL не всегда совсем безобидны, и временами их стоит иметь в виду. На замерах бенчей результат тоже может существенно разниться между hf и vLLM.
👍14



tgoop.com/quant_prune_distill/526
Create:
Last Update:

Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
[Блогпост]

Для ускорения обучения RL-методов с роллаутами, некоторые фреймворки (VeRL) генерируют траектории с помощью оптимизированных движков инференса, например, vLLM.

Однако, расхождение между разными фреймворками инференса (transformers 🤗 / vLLM) может быть довольно значительным (из-за деталей реализации кернелов). Причем настолько, что при тех же самых весах модели, предсказания могут существенно разняться (другой выбор следующего токена).

Авторы блогпоста замечают, что данная проблема делает on-policy RL по сути off-policy, что негативно сказывается на сходимости.

В качестве решения проблемы предлагается делать своего рода importance sampling с отношением вероятностей модели в фреймворке обучения и инференса. И это хорошо помогает PPO, причем можно даже генерировать роллауты int8 квантизованной моделью без нарушения сходимости. DAPO поверх DeepSeek-R1-Distill-Qwen-1.5B, где отношение вероятностей невелико, работает хорошо и без importance sampling.

Выводы

Мораль басни такова, что численные неточности в DL не всегда совсем безобидны, и временами их стоит иметь в виду. На замерах бенчей результат тоже может существенно разниться между hf и vLLM.

BY КПД




Share with your friend now:
tgoop.com/quant_prune_distill/526

View MORE
Open in Telegram


Telegram News

Date: |

With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Users are more open to new information on workdays rather than weekends. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Add up to 50 administrators
from us


Telegram КПД
FROM American