tgoop.com/vibesandtech/26
Last Update:
🏎️ Thinkless LLM: думай меньше - решай быстрее
Свежий препринт рассказывает, как научить модель сама решать, нужно ли ей расписывать длинный chain-of-thought. В словарь кидают два сигнальных токена — <short> и <think>. Дальше модель тренируется у «краткого» и «болтливого» учителей, а специальный RL-алгоритм DeGRPO аккуратно взвешивает: отдельно — правильность ответа, отдельно — выбор режима.
Эффект парадоксальный, но красивый: на бытовом GSM-8K она экономит 87 % токенов без потерь точности; на олимпиадной AIME — минус половина вычислений при почти тех же баллах. То есть когда вопрос прост, генератор не пишет роман, а на сложном включается полноценно.
Это похоже на то, как и мы зачастую принимаем решения. Часто для простых задач или тех задач, которые мы можем решать автоматически, мы пользуемся таким же коротким путем. Не размышляем, а сразу решаем.
К тому же, такой подход — это очередной кирпич в новой архитектуре «каскадного минимализма»: не одна монолитная LLM, а рой маленьких экспертов, ранних выходов и роутеров. Сначала лёгкий фильтр пробует ответить «на пальцах», и только если спотыкается — в бой идёт тяжёлая артиллерия. Такая логика становится ценнее «давайте-ка добавим ещё 50 млрд параметров»: экономит GPU-доллары, снижает задержку и бережёт батарейку у юзера.
Для авто-кодинга это значит: шаблонный boilerplate рождается мгновенно, а длинное рассуждение выстреливает лишь на нетривиальном алгоритме. Для учебных ботов — быстрый шорт-ответ ученику и развёрнутый разбор, если вопрос реально сложный.
TL;DR: следующий виток оптимизаций не про «думать сильнее», а про думать ровно столько, сколько нужно. Thinkless демонстрирует, что самой модели можно доверить этот переключатель — и выиграть в 3-10 раз по стоимости, не проигрывая по смыслу.
🔗 Читать оригинал — arXiv: https://arxiv.org/pdf/2505.13379
BY Тарас Довгаль. AI-first в жизни и работе
Share with your friend now:
tgoop.com/vibesandtech/26