AI.Insaf@ai_tablet P.169

AI.Insaf

LLM blending работает но дорого

Если бюджеты позволяют, для улучшения метрик можно комбинировать ответы от разных промптов или LLM, используя агрегацию с помощью другой LLM или majority voting. Как в старых добрых табличных задачках, осталось только до стэкинга дойти.

В статье Are More LLM Calls All You Need на MMLU PHYSICS blending улучшает точность на лёгких вопросах с 88% до 96% при 10 запросах, но на сложных задачах всё не так однозначно. На сложных задачах, где LLM с большей вероятностью выдаёт неверный ответ, при увеличении числа вызовов самый популярный (но ошибочный) ответ чаще побеждает в голосовании, что снижает общую точность. При этом обычный voting работает лучше, чем filter-voting, где итоговый ответ определяет отдельный вызов модели.

А в статье Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information предложены другие методы агрегирования (Optimal Weight, Inverse Surprising Popularity), которые учитывают корреляции и точность между моделями, как итог превосходят простое majority voting. По сути, для ответов моделей просто подбираются оптимальные веса для взвешивания. Это даёт прирост в +0.5% к точности лучшей модели (на датасетах UltraFeedback и ARMMAN, но наблюдается отрицательный эффект на MMLU). И +5% по сравнению с majority voting при 2х запросах и падением эффекта до +1% при 10и моделях. Сильное влияние оказывает некоррелированность ответов - если варианты слишком похожи, прироста почти нет

🔥5❤‍🔥3👍3

www.tgoop.com/ai_tablet/169

366 viewsOct 6 at 18:54

tgoop.com/ai_tablet/169

Create: 2025-10-06
Last Update: 2025-10-18 16:59:26

BY AI.Insaf

Share with your friend now:
tgoop.com/ai_tablet/169

Telegram News

LLM blending работает но дорого