🆎 Что такое p-value и почему оно меньше alpha?
🎧 Работая в компании и проводя эксперименты, мы перестаем задумываться о таких вещах и пользуемся этим утверждением (если изменения статзначимы) как данность. В этом посте я расскажу почему это так.
🐶 Обычно трактуют несколько определений.
p-value – это вероятность получить значение статистики критерия равное наблюдаемому или более нетипичное по сравнению с наблюдаемым при условии, что нулевая гипотеза верна
p-value – это минимальный уровень значимости, на котором нулевая гипотеза может быть отвергнута.
🔥 Давайте разберём более подробно. Предположим, у нас есть какая-то
статистика (фиксируем H0). Это может быть среднее, какое-то число, полученное эмпирическим методом. В целом общем то, что имеем мы СЕЙЧАС.
🍑 Построили распределение статистики
до проведения эксперимента. Например, выборочное среднее. Получили нормальное распределение, H0 в этом случае верна.
Обычно в индустрии берут уровень значимости равный 0.01, 0.05.
😑 Что это значит для нас? Мы можем задать числом вероятность получить такие же или более экстремальные значения. В этом случае мы фиксируем alpha и можем взять то значение статистики, получая которое в дальнейшем мы отвергаем H0.
Без изменений это будет FPR (False Positive Rate).
Тут вопрос бизнесу, в каких случаях мы хотим ошибаться. Понятно, что если мы выберем медиану распределения статистику
FPR будет 50%, что является недопустимым.
🤗 Получили числено наше критическое значение, относительно которого мы будем считать критическую область (обычно это является излишком, так как мы фиксируем alpha на уровне 0.05, 0.01)
😎 Если мы проводим эксперимент и получаем значение больше нашей отсечки при верной H0, то H0 отвергается.
🙂 Давайте разберемся с p-value.
Давайте пока остановимся на односторонней гипотезе stat > val
🚙 Это значит, что мы должны найти значение функции распределения в точке для исходного распределения статистики.
Точнее, 1 - distr.cdf(stat)
😐 Почему так? Потому что для статистики при верной H0 мы хотим получим вероятность получения таких же или более экстремальных значений статистики.
🕺 p-value < alpha. Эта запись эквивалентна тому, что ФАКТИЧЕСКОЕ значение статистики оказалось БОЛЬШЕ (в нашем случае) КРИТИЧЕСКОГО значения статистики при верной H0.
🍺 Ставьте 🕺, если пост оказался полезным, делитесь с коллегами, друзьями,
а я пойду дальше.
Поддержать канал