Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib P.6585

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😐

Холивар: метрика Accuracy — вообще уместна ли в реальных задачах

Особенно — при дисбалансе классов.

▶️

Что такое Accuracy

Accuracy (точность классификации) — доля правильно предсказанных объектов:

accuracy = (TP + TN) / (TP + TN + FP + FN)

Но… эта метрика вводит в заблуждение, когда классы несбалансированы.

▶️

Пример

Допустим, модель предсказывает мошенничество (fraud) по транзакциям:
👉 Класс 0 — «не мошенничество» — 99.5%
👉 Класс 1 — «мошенничество» — 0.5%

# Модель всегда говорит не мошенничество
y_pred = [0] * 1000
y_true = [0]*995 + [1]*5

from sklearn.metrics import accuracy_score
accuracy_score(y_true, y_pred)  # → 0.995

📈 Accuracy = 99.5%. Но модель никогда не находит мошенников. Она бесполезна.

▶️

Почему это проблема

👉 Смещение метрики: высокий accuracy может скрывать полное отсутствие качества по минорному классу
👉 Нет контроля над важными ошибками: FP и FN не различаются по «цене»
👉 Опасно в задачах медицины, безопасности, финансов

▶️

Когда Accuracy всё-таки уместна

👉 Классы сбалансированы
👉 FP и FN одинаково критичны
👉 Модель baseline или задача игрушечная
👉 Используется совместно с другими метриками

▶️

Альтернативы

👉 Precision / Recall / F1-score
👉 ROC-AUC / PR-AUC
👉 Balanced Accuracy
👉 Cohen’s Kappa, MCC
👉 Confusion matrix — всегда полезно посмотреть

💬 А вы что используете в своих задачах с дисбалансом классов? Бывали ситуации, где accuracy сыграла с вами злую шутку?

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/dsproglib/6585

1.2K viewsJun 21 at 13:05

tgoop.com/dsproglib/6585

Create: 2025-06-21
Last Update: 2025-06-25 05:30:30

😐 Холивар: метрика Accuracy — вообще уместна ли в реальных задачах

Особенно — при дисбалансе классов.

▶️ Что такое Accuracy

Accuracy (точность классификации) — доля правильно предсказанных объектов:

accuracy = (TP + TN) / (TP + TN + FP + FN)

Но… эта метрика вводит в заблуждение, когда классы несбалансированы.

▶️

# Модель всегда говорит не мошенничество
y_pred = [0] * 1000
y_true = [0]*995 + [1]*5

from sklearn.metrics import accuracy_score
accuracy_score(y_true, y_pred)  # → 0.995

📈 Accuracy = 99.5%. Но модель никогда не находит мошенников. Она бесполезна.

▶️

Telegram News

😐 Холивар: метрика Accuracy — вообще уместна ли в реальных задачах