OPENDATASCIENCE Telegram 2283
Forwarded from Valuable AI
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)

в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво



tgoop.com/opendatascience/2283
Create:
Last Update:

коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)

в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво

BY Data Science by ODS.ai 🦜


Share with your friend now:
tgoop.com/opendatascience/2283

View MORE
Open in Telegram


Telegram News

Date: |

With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Telegram channels fall into two types: In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Users are more open to new information on workdays rather than weekends.
from us


Telegram Data Science by ODS.ai 🦜
FROM American