MACHINELEARNING_BOOKS Telegram 1116
🧠 JointThinking: как заставить ИИ думать дважды — но только когда нужно

Новое исследование показывает: если LLM отвечает дважды и второй раз только в случае расхождения, точность резко растёт — а скорость почти не падает.

📌 Как работает JointThinking:
1. Модель сразу выдаёт два ответа:
• быстрый ("Nothinking")
• вдумчивый ("Thinking")

2. Если ответы совпадают — возвращается "Thinking".
3. Если разные — запускается ещё один раунд размышлений с анализом обоих вариантов.

📈 Результаты:
• На GSM8K (арифметика):
• 7B модель: с 87.79% → 91.05%
• 32B модель: с 92.80% → 96.29%

• Повторный шаг включается только в 6% случаев — задержка почти не меняется
• На MMLU-Pro (OOD):
• 7B: с 57.07% → 66.79% — обгоняет даже специализированный метод AdaptThink

🎯 Главная идея:
Согласие Thinking и Nothinking — это сильный сигнал уверенности. А несогласие — повод подумать ещё раз. Этот подход:
• не требует дообучения
• легко масштабируется
• снижает confident‑ошибки до –1.55%

📄 Paper: arxiv.org/abs/2508.03363

Простая идея, впечатляющий прирост. Структурное разнообразие мышления — вот как строятся устойчивые reasoning‑системы.
👍65🔥3



tgoop.com/machinelearning_books/1116
Create:
Last Update:

🧠 JointThinking: как заставить ИИ думать дважды — но только когда нужно

Новое исследование показывает: если LLM отвечает дважды и второй раз только в случае расхождения, точность резко растёт — а скорость почти не падает.

📌 Как работает JointThinking:
1. Модель сразу выдаёт два ответа:
• быстрый ("Nothinking")
• вдумчивый ("Thinking")

2. Если ответы совпадают — возвращается "Thinking".
3. Если разные — запускается ещё один раунд размышлений с анализом обоих вариантов.

📈 Результаты:
• На GSM8K (арифметика):
• 7B модель: с 87.79% → 91.05%
• 32B модель: с 92.80% → 96.29%

• Повторный шаг включается только в 6% случаев — задержка почти не меняется
• На MMLU-Pro (OOD):
• 7B: с 57.07% → 66.79% — обгоняет даже специализированный метод AdaptThink

🎯 Главная идея:
Согласие Thinking и Nothinking — это сильный сигнал уверенности. А несогласие — повод подумать ещё раз. Этот подход:
• не требует дообучения
• легко масштабируется
• снижает confident‑ошибки до –1.55%

📄 Paper: arxiv.org/abs/2508.03363

Простая идея, впечатляющий прирост. Структурное разнообразие мышления — вот как строятся устойчивые reasoning‑системы.

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1116

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. Click “Save” ; The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American