Warning: file_put_contents(aCache/aDaily/post/data_analysis_ml/-3764-3765-3766-3767-3768-3769-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Анализ данных (Data analysis)@data_analysis_ml P.3768
DATA_ANALYSIS_ML Telegram 3768
🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.

В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.

📊 Что выяснили:
SFT на математике → ухудшение на нематематических задачах
RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси

🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
а где — просто бенчмарк‑максинг

📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.

📌 Подробнее
14👍10🔥5



tgoop.com/data_analysis_ml/3768
Create:
Last Update:

🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.

В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.

📊 Что выяснили:
SFT на математике → ухудшение на нематематических задачах
RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси

🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
а где — просто бенчмарк‑максинг

📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.

📌 Подробнее

BY Анализ данных (Data analysis)









Share with your friend now:
tgoop.com/data_analysis_ml/3768

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. Today, we will address Telegram channels and how to use them for maximum benefit. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc.
from us


Telegram Анализ данных (Data analysis)
FROM American