tgoop.com/ai_tablet/158
Last Update:
The State of LLM Reasoning Model Inference
Себастьян Рашка, известный по своей книге о классическом ML, теперь пишет и про LLM. Сейчас (еще в марте) выпустил обзор методов улучшения инференса LLM за счет дополнительного компьюта. Идея - заставить модель дольше размышлять для получения более качественного ответа.
Возможно чем слабее базовая модель, тем заметнее эффект от этих техник. Для сильных LLM прирост качества оказывается ниже (см. картинку). Но это надо не просто дольше думать, но и правильно
Что кажется можно легко проверить и использовать без архитектурного изменения модели:
Wait Injection. Перед генерацией финального ответа просим LLM вывести слово Wait. Это дает модели паузу на переосмысление контекста. На математических задачах точность может вырасти до +50%. Использовать можно добавив соответствующую инструкцию в промпт или сделать повторный запрос с предыдущим контекстом и мыслями модели, добавив Wait
Переход от Chain-of-Thought (CoT) к Chain of Draft (CoD). Базированный CoT часто генерирует избыточные рассуждения, сжигая токены. Новый подход (CoD) предлагает модели размышлять в формате коротких тезисов (можно достичь за счет промтинга). Результат: лучше метрики и дешевле запросы
BY AI.Insaf

Share with your friend now:
tgoop.com/ai_tablet/158