SOME_URL_WHILE_IM_IN_SEARCH Telegram 82
Очень интересная статья. Авторы показали, что можно сделать классную ризонинг-модель, которая будет превосходить o1-preview от OpenAI на математике, всего лишь с помощью простого супервайзного файнтюнинга (SFT) на 1000 отобранных семплах. В статье продемонстрировали test-time scaling (линейная зависимость между метрикой качества и логарифмом числа токенов). Чем дольше модель думает, тем лучше результат: 50% → 56.7% accuracy.

Что сделали:

1. Качественный датасет: семплы в формате *вопрос - размышление - ответ*. Для генерации размышлений и ответов использовали разные модели. Например, Gemini 2.0 Flash Thinking.
2. Дообучили Qwen-2.5-32B-Instruct, чтобы научить «думать». Для этого ввели новую роль think в шаблон промпта. Внутри размышления использовали разделитель “Wait”. Обучение заняло всего 26 минут на H100!
3. На инференсе модель работает так:
1. Сначала генерируем стандартный ответ ассистента:


<|im_start|>system
You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
<|im_end|>
<|im_start|>user
How many r in raspberry
<|im_end|>
<|im_start|>assistant


2. Затем открываем блок размышления: <|im_start|>think
3. Каждый раз, когда модель пытается закрыть блок (`<|im_end|>`), мы добавляем в промпт слово "Wait". Это заставляет её продолжать размышлять. Повторяем столько раз, сколько ресурсов есть на генерацию токенов.
4. В конце закрываем блок размышления (`<|im_end|>`) и просим модель сгенерировать финальный ответ:


<|im_start|>assistant
(final answer here)
<|im_end|


Впечатлило то, что можно очень просто сделать под свою задачу классную ризонинг модель, не обладая всеми кластерами мира) Как будто, можно даже на колабе справиться, если взять Qwen поменше. Но это будет больно, конечно))
🔥3



tgoop.com/some_url_while_im_in_search/82
Create:
Last Update:

Очень интересная статья. Авторы показали, что можно сделать классную ризонинг-модель, которая будет превосходить o1-preview от OpenAI на математике, всего лишь с помощью простого супервайзного файнтюнинга (SFT) на 1000 отобранных семплах. В статье продемонстрировали test-time scaling (линейная зависимость между метрикой качества и логарифмом числа токенов). Чем дольше модель думает, тем лучше результат: 50% → 56.7% accuracy.

Что сделали:

1. Качественный датасет: семплы в формате *вопрос - размышление - ответ*. Для генерации размышлений и ответов использовали разные модели. Например, Gemini 2.0 Flash Thinking.
2. Дообучили Qwen-2.5-32B-Instruct, чтобы научить «думать». Для этого ввели новую роль think в шаблон промпта. Внутри размышления использовали разделитель “Wait”. Обучение заняло всего 26 минут на H100!
3. На инференсе модель работает так:
1. Сначала генерируем стандартный ответ ассистента:


<|im_start|>system
You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
<|im_end|>
<|im_start|>user
How many r in raspberry
<|im_end|>
<|im_start|>assistant


2. Затем открываем блок размышления: <|im_start|>think
3. Каждый раз, когда модель пытается закрыть блок (`<|im_end|>`), мы добавляем в промпт слово "Wait". Это заставляет её продолжать размышлять. Повторяем столько раз, сколько ресурсов есть на генерацию токенов.
4. В конце закрываем блок размышления (`<|im_end|>`) и просим модель сгенерировать финальный ответ:


<|im_start|>assistant
(final answer here)
<|im_end|


Впечатлило то, что можно очень просто сделать под свою задачу классную ризонинг модель, не обладая всеми кластерами мира) Как будто, можно даже на колабе справиться, если взять Qwen поменше. Но это будет больно, конечно))

BY <какой-то текст, пока я не придумал название>


Share with your friend now:
tgoop.com/some_url_while_im_in_search/82

View MORE
Open in Telegram


Telegram News

Date: |

On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. Click “Save” ; SUCK Channel Telegram Image: Telegram. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation.
from us


Telegram <какой-то текст, пока я не придумал название>
FROM American