MACHINELEARNING_BOOKS Telegram 1217
🧠 NVIDIA: обучай рассуждать с самого начала

Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.

📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%

🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.

🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.

📄 arxiv: https://arxiv.org/abs/2510.03264
7👍1



tgoop.com/machinelearning_books/1217
Create:
Last Update:

🧠 NVIDIA: обучай рассуждать с самого начала

Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.

📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%

🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.

🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.

📄 arxiv: https://arxiv.org/abs/2510.03264

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1217

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. A vandalised bank during the 2019 protest. File photo: May James/HKFP. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American