tgoop.com/machinelearning_books/1217
Last Update:
🧠 NVIDIA: обучай рассуждать с самого начала
Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.
📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%
🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.
🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.
📄 arxiv: https://arxiv.org/abs/2510.03264
BY Машиннное обучение | Наука о данных Библиотека

Share with your friend now:
tgoop.com/machinelearning_books/1217