Математика Дата саентиста@data_math P.832

DATA_MATH Telegram 832

Математика Дата саентиста

📈 Как повысить точность LLM в задачах по математике?

Новая статья показывает: если дать модели примеры на двух уровнях, можно поднять точность на 16% даже для моделей с 8B параметров.

🧠 Что делают авторы:
1. Разбивают задачу на 3 ключевых элемента: тип, ключевые термины и метод решения. Это называют "conceptual unit".
2. По ним находят похожие задачи с решениями — и вставляют в промпт.
3. Во время поиска (MCTS) модель на каждом шаге сравнивает своё решение с мини-базой реальных фрагментов решений.
4. Специальная reward-модель оценивает шаги и направляет дерево в сторону осмысленных решений.

📊 Результаты:
— LLaMA‑3.1‑8B: с 46.6% до 52.5% на OlympiadBench
— Qwen2‑7B: до 60.6%
— Прирост точности сохраняется при увеличении пула примеров, но время почти не растёт (+5%)

⚠️ Если убрать один из уровней (примеры до поиска или во время) — прирост снижается вдвое. Оба уровня работают только вместе.

📄 arxiv.org/abs/2507.05557

Enhancing Test-Time Scaling of Large Language Models with...

Test-time scaling has emerged as a promising paradigm in language modeling, leveraging additional computational resources at inference time to enhance model performance. In this work, we introduce...

❤5👍2🔥2

www.tgoop.com/data_math/832

3.53K viewsJul 30 at 09:50

tgoop.com/data_math/832

Create: 2025-07-30
Last Update: 2025-10-08 10:13:07

📈 Как повысить точность LLM в задачах по математике?

Новая статья показывает: если дать модели примеры на двух уровнях, можно поднять точность на 16% даже для моделей с 8B параметров.

🧠 Что делают авторы:
1. Разбивают задачу на 3 ключевых элемента: тип, ключевые термины и метод решения. Это называют "conceptual unit".
2. По ним находят похожие задачи с решениями — и вставляют в промпт.
3. Во время поиска (MCTS) модель на каждом шаге сравнивает своё решение с мини-базой реальных фрагментов решений.
4. Специальная reward-модель оценивает шаги и направляет дерево в сторону осмысленных решений.

📊 Результаты:
— LLaMA‑3.1‑8B: с 46.6% до 52.5% на OlympiadBench
— Qwen2‑7B: до 60.6%
— Прирост точности сохраняется при увеличении пула примеров, но время почти не растёт (+5%)

⚠️ Если убрать один из уровней (примеры до поиска или во время) — прирост снижается вдвое. Оба уровня работают только вместе.

📄 arxiv.org/abs/2507.05557

BY Математика Дата саентиста

Share with your friend now:
tgoop.com/data_math/832

Open in Telegram

Telegram News

Date: 2025-10-08|

To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us

Telegram Математика Дата саентиста
FROM American