🔥Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.
🧪 Что сделали: Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.
Потратили всего $9.
Получили +20% улучшения и 43% на бенчмарке AIME24.
✅ LoRA-RL > Full RL: Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.
Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.
Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".
🔥Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.
🧪 Что сделали: Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.
Потратили всего $9.
Получили +20% улучшения и 43% на бенчмарке AIME24.
✅ LoRA-RL > Full RL: Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.
Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.
Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".
Write your hashtags in the language of your target audience. 2How to set up a Telegram channel? (A step-by-step tutorial) In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us