VIBESANDTECH Telegram 26
🏎️ Thinkless LLM: думай меньше - решай быстрее

Свежий препринт ​рассказывает, как научить модель сама решать, нужно ли ей расписывать длинный chain-of-thought. В словарь кидают два сигнальных токена — <short> и <think>. Дальше модель тренируется у «краткого» и «болтливого» учителей, а специальный RL-алгоритм DeGRPO аккуратно взвешивает: отдельно — правильность ответа, отдельно — выбор режима.

Эффект парадоксальный, но красивый: на бытовом GSM-8K она экономит 87 % токенов без потерь точности; на олимпиадной AIME — минус половина вычислений при почти тех же баллах. То есть когда вопрос прост, генератор не пишет роман, а на сложном включается полноценно.

Это похоже на то, как и мы зачастую принимаем решения. Часто для простых задач или тех задач, которые мы можем решать автоматически, мы пользуемся таким же коротким путем. Не размышляем, а сразу решаем.

К тому же, такой подход — это очередной кирпич в новой архитектуре «каскадного минимализма»: не одна монолитная LLM, а рой маленьких экспертов, ранних выходов и роутеров. Сначала лёгкий фильтр пробует ответить «на пальцах», и только если спотыкается — в бой идёт тяжёлая артиллерия. Такая логика становится ценнее «давайте-ка добавим ещё 50 млрд параметров»: экономит GPU-доллары, снижает задержку и бережёт батарейку у юзера.

Для авто-кодинга это значит: шаблонный boilerplate рождается мгновенно, а длинное рассуждение выстреливает лишь на нетривиальном алгоритме. Для учебных ботов — быстрый шорт-ответ ученику и развёрнутый разбор, если вопрос реально сложный.

TL;DR: следующий виток оптимизаций не про «думать сильнее», а про думать ровно столько, сколько нужно. Thinkless демонстрирует, что самой модели можно доверить этот переключатель — и выиграть в 3-10 раз по стоимости, не проигрывая по смыслу.

🔗 Читать оригинал — arXiv: https://arxiv.org/pdf/2505.13379
7👍3🔥3🥰1



tgoop.com/vibesandtech/26
Create:
Last Update:

🏎️ Thinkless LLM: думай меньше - решай быстрее

Свежий препринт ​рассказывает, как научить модель сама решать, нужно ли ей расписывать длинный chain-of-thought. В словарь кидают два сигнальных токена — <short> и <think>. Дальше модель тренируется у «краткого» и «болтливого» учителей, а специальный RL-алгоритм DeGRPO аккуратно взвешивает: отдельно — правильность ответа, отдельно — выбор режима.

Эффект парадоксальный, но красивый: на бытовом GSM-8K она экономит 87 % токенов без потерь точности; на олимпиадной AIME — минус половина вычислений при почти тех же баллах. То есть когда вопрос прост, генератор не пишет роман, а на сложном включается полноценно.

Это похоже на то, как и мы зачастую принимаем решения. Часто для простых задач или тех задач, которые мы можем решать автоматически, мы пользуемся таким же коротким путем. Не размышляем, а сразу решаем.

К тому же, такой подход — это очередной кирпич в новой архитектуре «каскадного минимализма»: не одна монолитная LLM, а рой маленьких экспертов, ранних выходов и роутеров. Сначала лёгкий фильтр пробует ответить «на пальцах», и только если спотыкается — в бой идёт тяжёлая артиллерия. Такая логика становится ценнее «давайте-ка добавим ещё 50 млрд параметров»: экономит GPU-доллары, снижает задержку и бережёт батарейку у юзера.

Для авто-кодинга это значит: шаблонный boilerplate рождается мгновенно, а длинное рассуждение выстреливает лишь на нетривиальном алгоритме. Для учебных ботов — быстрый шорт-ответ ученику и развёрнутый разбор, если вопрос реально сложный.

TL;DR: следующий виток оптимизаций не про «думать сильнее», а про думать ровно столько, сколько нужно. Thinkless демонстрирует, что самой модели можно доверить этот переключатель — и выиграть в 3-10 раз по стоимости, не проигрывая по смыслу.

🔗 Читать оригинал — arXiv: https://arxiv.org/pdf/2505.13379

BY Тарас Довгаль. AI-first в жизни и работе


Share with your friend now:
tgoop.com/vibesandtech/26

View MORE
Open in Telegram


Telegram News

Date: |

Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar.
from us


Telegram Тарас Довгаль. AI-first в жизни и работе
FROM American