<какой-то текст, пока я не придумал название>@some_url_while_im_in

<какой-то текст, пока я не придумал название>

Очень интересная статья. Авторы показали, что можно сделать классную ризонинг-модель, которая будет превосходить o1-preview от OpenAI на математике, всего лишь с помощью простого супервайзного файнтюнинга (SFT) на 1000 отобранных семплах. В статье продемонстрировали test-time scaling (линейная зависимость между метрикой качества и логарифмом числа токенов). Чем дольше модель думает, тем лучше результат: 50% → 56.7% accuracy.

Что сделали:

1. Качественный датасет: семплы в формате *вопрос - размышление - ответ*. Для генерации размышлений и ответов использовали разные модели. Например, Gemini 2.0 Flash Thinking.
2. Дообучили Qwen-2.5-32B-Instruct, чтобы научить «думать». Для этого ввели новую роль think в шаблон промпта. Внутри размышления использовали разделитель “Wait”. Обучение заняло всего 26 минут на H100!
3. На инференсе модель работает так:
1. Сначала генерируем стандартный ответ ассистента:


        <|im_start|>system
        You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
        <|im_end|>
        <|im_start|>user
        How many r in raspberry
        <|im_end|>
        <|im_start|>assistant

2. Затем открываем блок размышления: <|im_start|>think
3. Каждый раз, когда модель пытается закрыть блок (`<|im_end|>`), мы добавляем в промпт слово "Wait". Это заставляет её продолжать размышлять. Повторяем столько раз, сколько ресурсов есть на генерацию токенов.
4. В конце закрываем блок размышления (`<|im_end|>`) и просим модель сгенерировать финальный ответ:


        <|im_start|>assistant
        (final answer here)
        <|im_end|

Впечатлило то, что можно очень просто сделать под свою задачу классную ризонинг модель, не обладая всеми кластерами мира) Как будто, можно даже на колабе справиться, если взять Qwen поменше. Но это будет больно, конечно))

🔥3

www.tgoop.com/some_url_while_im_in_search/82

190 viewsedited May 9 at 15:49

tgoop.com/some_url_while_im_in_search/82

Create: 2025-05-09
Last Update: 2025-10-25 02:30:43


        <|im_start|>system
        You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
        <|im_end|>
        <|im_start|>user
        How many r in raspberry
        <|im_end|>
        <|im_start|>assistant


        <|im_start|>assistant
        (final answer here)
        <|im_end|

BY <какой-то текст, пока я не придумал название>

Share with your friend now:
tgoop.com/some_url_while_im_in_search/82

Telegram News

Очень интересная статья. Авторы показали