Notice: file_put_contents(): Write of 11547 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 19739 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
Artificial stupidity@artificial_stupid P.296
ARTIFICIAL_STUPID Telegram 296
​​#statistics #metrics

Сегодня речь о Matthews Correlation Coefficient (MCC).

У нас есть много способов оценить качество классификации. Например, построить ROC кривые (и посчитать AUC), посмотреть F1 меру, точность и полноту и т.д. Но есть одна метрика, которую несколько обделяют вниманием. И это коэффициент корреляции Мэтьюса.

Напомню о классическом наборе значений для бинарной классификации (считаем, что у нас два класса - positive и negative):
1. True positive (TP) - мы предсказали positive и он же является правдой;
2. True negative (TN) - то же самое, но с negative;
3. False positive (FP) - предсказали positive при реальном negative;
4. False negative (FN) - предсказали negative при рельном positive.

И соответствующие метрики:
1. Accuracy = (TP + TN) / (TP + TN + FP + FN)
2. Precision = TP / (TP + FP)
3. Recall = TP / (TP + FN)

В разных задачах относительная важность этих показателей может отличаться. Но, если брать в целом, то нам хочется побольше True и поменьше False positive или negative. Ну и при дисбалансе классов мы частенько получаем проблемы с классическими метриками, по типу accuracy.

Что же мы хотим посчитать при использовании MCC? Давайте будем рассматривать target и наше предсказание, как две бинарные величины. Исходя из идеи, что корреляция показывает силу связи, давайте смотреть на корреляцию этих двух величин. Выше корреляция предсказаний с target - лучше мы решаем нашу задачу.

Давайте будем считать MCC таким образом, который показан на изображении к посту. Как мы можем заметить, у нас здесь используются все показатели - TP, TN, FP, FN. Что позволяет следить за качеством предсказания обоих классов. И это очень полезное свойство! Особенно, при дисбалансе классов.

Значения MCC находятся между -1 и 1. Соответственно, 1 - идеальное предсказание, 0 - случайное, -1 - все предсказано ровно наоборот.

Интересно, что MCC связано со статистикой Хи-квадрат для матрицы сопряженности 2*2. Соотношение следующее: C**2(D, M) = khi**2 / N, где C - MCC, D - таргет, M - предсказание, khi**2 - статистика хи-квадрат, N - количество наблюдений.

В дополнение приведу статью "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation" и ссылку на доку sklearn для расчета метрики.
101



tgoop.com/artificial_stupid/296
Create:
Last Update:

​​#statistics #metrics

Сегодня речь о Matthews Correlation Coefficient (MCC).

У нас есть много способов оценить качество классификации. Например, построить ROC кривые (и посчитать AUC), посмотреть F1 меру, точность и полноту и т.д. Но есть одна метрика, которую несколько обделяют вниманием. И это коэффициент корреляции Мэтьюса.

Напомню о классическом наборе значений для бинарной классификации (считаем, что у нас два класса - positive и negative):
1. True positive (TP) - мы предсказали positive и он же является правдой;
2. True negative (TN) - то же самое, но с negative;
3. False positive (FP) - предсказали positive при реальном negative;
4. False negative (FN) - предсказали negative при рельном positive.

И соответствующие метрики:
1. Accuracy = (TP + TN) / (TP + TN + FP + FN)
2. Precision = TP / (TP + FP)
3. Recall = TP / (TP + FN)

В разных задачах относительная важность этих показателей может отличаться. Но, если брать в целом, то нам хочется побольше True и поменьше False positive или negative. Ну и при дисбалансе классов мы частенько получаем проблемы с классическими метриками, по типу accuracy.

Что же мы хотим посчитать при использовании MCC? Давайте будем рассматривать target и наше предсказание, как две бинарные величины. Исходя из идеи, что корреляция показывает силу связи, давайте смотреть на корреляцию этих двух величин. Выше корреляция предсказаний с target - лучше мы решаем нашу задачу.

Давайте будем считать MCC таким образом, который показан на изображении к посту. Как мы можем заметить, у нас здесь используются все показатели - TP, TN, FP, FN. Что позволяет следить за качеством предсказания обоих классов. И это очень полезное свойство! Особенно, при дисбалансе классов.

Значения MCC находятся между -1 и 1. Соответственно, 1 - идеальное предсказание, 0 - случайное, -1 - все предсказано ровно наоборот.

Интересно, что MCC связано со статистикой Хи-квадрат для матрицы сопряженности 2*2. Соотношение следующее: C**2(D, M) = khi**2 / N, где C - MCC, D - таргет, M - предсказание, khi**2 - статистика хи-квадрат, N - количество наблюдений.

В дополнение приведу статью "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation" и ссылку на доку sklearn для расчета метрики.

BY Artificial stupidity




Share with your friend now:
tgoop.com/artificial_stupid/296

View MORE
Open in Telegram


Telegram News

Date: |

Administrators Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). The Channel name and bio must be no more than 255 characters long During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. “[The defendant] could not shift his criminal liability,” Hui said.
from us


Telegram Artificial stupidity
FROM American