MACHINELEARNING_RU Telegram 2892
🧠 Как снизить самоуверенность LLM-«судей»

Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.

Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B

Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.

Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.

Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%

Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser

📌 Подробнее
5👍3



tgoop.com/machinelearning_ru/2892
Create:
Last Update:

🧠 Как снизить самоуверенность LLM-«судей»

Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.

Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B

Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.

Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.

Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%

Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser

📌 Подробнее

BY Машинное обучение RU




Share with your friend now:
tgoop.com/machinelearning_ru/2892

View MORE
Open in Telegram


Telegram News

Date: |

5Telegram Channel avatar size/dimensions Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Healing through screaming therapy
from us


Telegram Машинное обучение RU
FROM American