tgoop.com/some_url_while_im_in_search/82
Last Update:
Очень интересная статья. Авторы показали, что можно сделать классную ризонинг-модель, которая будет превосходить o1-preview от OpenAI на математике, всего лишь с помощью простого супервайзного файнтюнинга (SFT) на 1000 отобранных семплах. В статье продемонстрировали test-time scaling (линейная зависимость между метрикой качества и логарифмом числа токенов). Чем дольше модель думает, тем лучше результат: 50% → 56.7% accuracy.
Что сделали:
1. Качественный датасет: семплы в формате *вопрос - размышление - ответ*. Для генерации размышлений и ответов использовали разные модели. Например, Gemini 2.0 Flash Thinking.
2. Дообучили Qwen-2.5-32B-Instruct, чтобы научить «думать». Для этого ввели новую роль think в шаблон промпта. Внутри размышления использовали разделитель “Wait”. Обучение заняло всего 26 минут на H100!
3. На инференсе модель работает так:
1. Сначала генерируем стандартный ответ ассистента:
<|im_start|>system
You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
<|im_end|>
<|im_start|>user
How many r in raspberry
<|im_end|>
<|im_start|>assistant
2. Затем открываем блок размышления:
<|im_start|>think3. Каждый раз, когда модель пытается закрыть блок (`<|im_end|>`), мы добавляем в промпт слово "Wait". Это заставляет её продолжать размышлять. Повторяем столько раз, сколько ресурсов есть на генерацию токенов.
4. В конце закрываем блок размышления (`<|im_end|>`) и просим модель сгенерировать финальный ответ:
<|im_start|>assistant
(final answer here)
<|im_end|
Впечатлило то, что можно очень просто сделать под свою задачу классную ризонинг модель, не обладая всеми кластерами мира) Как будто, можно даже на колабе справиться, если взять Qwen поменше. Но это будет больно, конечно))
BY <какой-то текст, пока я не придумал название>
Share with your friend now:
tgoop.com/some_url_while_im_in_search/82
