Машинное обучение RU@machinelearning

Машинное обучение RU

🧠 Как снизить самоуверенность LLM-«судей»

Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.

Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B

Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.

Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.

Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%

Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser

📌 Подробнее

❤5👍3

www.tgoop.com/machinelearning_ru/2892

1.91K viewsAug 16 at 13:01

tgoop.com/machinelearning_ru/2892

Create: 2025-08-16
Last Update: 2025-09-24 15:09:36

BY Машинное обучение RU

Share with your friend now:
tgoop.com/machinelearning_ru/2892

Telegram News

🧠 Как снизить самоуверенность LLM-«судей»