DS_INTERVIEW_LIB Telegram 1065
🔎 Как и почему возникает проблема каллибровки вероятностей в моделях машинного обучения

Модель может выдавать хорошие предсказания с точки зрения точности, но её оценка вероятностей быть плохо откалиброванной — то есть, предсказанные вероятности не соответствуют реальной частоте событий.

Во многих задачах (медицина, финансы, риск-менеджмент) важна не только метка класса, но и уверенность модели. Например, предсказать, что событие с вероятностью 0.9 действительно случится примерно в 90% случаев.

Почему возникает несоответствие:
➡️ Используемые функции потерь (например, cross-entropy) и оптимизаторы не гарантируют идеальную калибровку.
➡️ Модели могут быть избыточно уверены (overconfident), особенно глубокие нейросети с ReLU и batch normalization.
➡️ Недостаток данных или несбалансированность классов искажает распределение вероятностей.

Методы исправления

Постобработка:
➡️ Плацинг (Platt Scaling) — логистическая регрессия по выходам модели.
➡️ Изотоническая регрессия — монотонная калибровка.
➡️ Температурное шкалирование (Temperature Scaling) — масштабирование логитов перед softmax.

Встроенные методы:
➡️ Использование бэйесовских моделей или методы, учитывающие неопределённость (например, dropout в режиме теста).
➡️ Обучение с учётом калибровки (calibration-aware loss).

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2



tgoop.com/ds_interview_lib/1065
Create:
Last Update:

🔎 Как и почему возникает проблема каллибровки вероятностей в моделях машинного обучения

Модель может выдавать хорошие предсказания с точки зрения точности, но её оценка вероятностей быть плохо откалиброванной — то есть, предсказанные вероятности не соответствуют реальной частоте событий.

Во многих задачах (медицина, финансы, риск-менеджмент) важна не только метка класса, но и уверенность модели. Например, предсказать, что событие с вероятностью 0.9 действительно случится примерно в 90% случаев.

Почему возникает несоответствие:
➡️ Используемые функции потерь (например, cross-entropy) и оптимизаторы не гарантируют идеальную калибровку.
➡️ Модели могут быть избыточно уверены (overconfident), особенно глубокие нейросети с ReLU и batch normalization.
➡️ Недостаток данных или несбалансированность классов искажает распределение вероятностей.

Методы исправления

Постобработка:
➡️ Плацинг (Platt Scaling) — логистическая регрессия по выходам модели.
➡️ Изотоническая регрессия — монотонная калибровка.
➡️ Температурное шкалирование (Temperature Scaling) — масштабирование логитов перед softmax.

Встроенные методы:
➡️ Использование бэйесовских моделей или методы, учитывающие неопределённость (например, dropout в режиме теста).
➡️ Обучение с учётом калибровки (calibration-aware loss).

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1065

View MORE
Open in Telegram


Telegram News

Date: |

During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Add up to 50 administrators Clear Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Unlimited number of subscribers per channel
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American