Artificial stupidity@artificial

Artificial stupidity

#statistics #metrics

Сегодня речь о Matthews Correlation Coefficient (MCC).

У нас есть много способов оценить качество классификации. Например, построить ROC кривые (и посчитать AUC), посмотреть F1 меру, точность и полноту и т.д. Но есть одна метрика, которую несколько обделяют вниманием. И это коэффициент корреляции Мэтьюса.

Напомню о классическом наборе значений для бинарной классификации (считаем, что у нас два класса - positive и negative):
1. True positive (TP) - мы предсказали positive и он же является правдой;
2. True negative (TN) - то же самое, но с negative;
3. False positive (FP) - предсказали positive при реальном negative;
4. False negative (FN) - предсказали negative при рельном positive.

И соответствующие метрики:
1. Accuracy = (TP + TN) / (TP + TN + FP + FN)
2. Precision = TP / (TP + FP)
3. Recall = TP / (TP + FN)

В разных задачах относительная важность этих показателей может отличаться. Но, если брать в целом, то нам хочется побольше True и поменьше False positive или negative. Ну и при дисбалансе классов мы частенько получаем проблемы с классическими метриками, по типу accuracy.

Что же мы хотим посчитать при использовании MCC? Давайте будем рассматривать target и наше предсказание, как две бинарные величины. Исходя из идеи, что корреляция показывает силу связи, давайте смотреть на корреляцию этих двух величин. Выше корреляция предсказаний с target - лучше мы решаем нашу задачу.

Давайте будем считать MCC таким образом, который показан на изображении к посту. Как мы можем заметить, у нас здесь используются все показатели - TP, TN, FP, FN. Что позволяет следить за качеством предсказания обоих классов. И это очень полезное свойство! Особенно, при дисбалансе классов.

Значения MCC находятся между -1 и 1. Соответственно, 1 - идеальное предсказание, 0 - случайное, -1 - все предсказано ровно наоборот.

Интересно, что MCC связано со статистикой Хи-квадрат для матрицы сопряженности 2*2. Соотношение следующее: C**2(D, M) = khi**2 / N, где C - MCC, D - таргет, M - предсказание, khi**2 - статистика хи-квадрат, N - количество наблюдений.

В дополнение приведу статью "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation" и ссылку на доку sklearn для расчета метрики.

❤10⚡1

www.tgoop.com/artificial_stupid/296

1.37K viewsMar 11, 2023 at 12:00

tgoop.com/artificial_stupid/296

Create: 2023-03-11
Last Update: 2025-07-31 22:18:44

BY Artificial stupidity

Share with your friend now:
tgoop.com/artificial_stupid/296

Telegram News

​​#statistics #metrics

#statistics #metrics