! Этот и следующего пост тесно связан с предыдущими про Баейс !
Несколько проблем частотного подхода:
1) Не отвечает на вопрос, "что лучше - А или B"?
Но бизнес-то хочет как раз ответа на этот вопрос. Ведь все начинается с гипотезы "сделаем это - получим результат (лучше)". Давайте проверим через A/B-тест. Давайте. Ведь разделения на группы, - в классическом виде случайным образом, - в принципе гарантируют нам, что группы будут похожи во всем, кроме одного: воздействия на B. Поэтому если будет разница B c А, то мы объясняем эту разницу именно от воздействия (тритмента).
Но вместо утверждения, что B лучше А, когда мы обнаружили стат. значимый результат, мы говорим некоторый набор фраз, о стат. значимости, о предположении наличия эффекта на базе этого, об отклонении нулевой гипотезы; все, кроме самого этого утверждения, хотя и хочется.
—
Этим-то и подкупает байесовский подход, у него есть Probability to be best, PBB для А и для B:
Сначала PBB (A>B) = PBB(B>A) = 0.5
Собирай данные, обновляй эти пробабилити, видишь, PBB(B>A) = 96.543% -> что читаешь, то и понимаешь - конкретика!
Го Байес?
—
А частотный подход в своих стат. теста что дает? Да только значение статистики и p-value. Что еще надо бы проинтерпретировать...
2) Интерпретация p-value. P-value - это вероятность обнаружить такой же или более экстремальный эффект тогда, когда верна нулевая гипотеза. Ничего другого про p-value сказать нельзя. Это можно либо понять (увидеть), либо запомнить. Но отмечу, разница между пониманием и знаниям тут есть: в первом случае вы никогда сами не сможете его иначе сформулировать, а во втором все же иногда будете ошибаться в формулировке, потому что без картинки и вывода этого значения оно так и останется будто бы заклинанием. И ошибаться тут критично: можно далеко уйти нетуда из-за этого.
Статистики-частотники (=фреквенсисты) хорошо осведомлены про 1-ое и 2-ое.
Можно даже сказать, что почти за 100 лет p-value их уже подбешивает (приведу цитату в конце).
Современные их телодвижения состоят в том, чтобы:
а) выжать из p-value хоть какую-то доп. информацию:
- вероятность/риск, что полученные стат. значимые результаты ложноположительны (False Positive Risk).
- вероятность (перевзвешанная) альтернативной гипотезы через значение p-value,
Ирония в том, что они используют для этого Байес. Почему ирония? Потому что байесианцы это соперники для частотников (фреквенсистов)! Впрочем, как часто и бывают, соперничают только радикалы от тех и других, остальным все равно)
b) дать ответ, что лучше A или B не хуже Баейса, для этого есть набирающий (снова) популярность подход как Probabilistic Index
Вот об этом и будем говорить далее.
Несколько проблем частотного подхода:
1) Не отвечает на вопрос, "что лучше - А или B"?
Но бизнес-то хочет как раз ответа на этот вопрос. Ведь все начинается с гипотезы "сделаем это - получим результат (лучше)". Давайте проверим через A/B-тест. Давайте. Ведь разделения на группы, - в классическом виде случайным образом, - в принципе гарантируют нам, что группы будут похожи во всем, кроме одного: воздействия на B. Поэтому если будет разница B c А, то мы объясняем эту разницу именно от воздействия (тритмента).
Но вместо утверждения, что B лучше А, когда мы обнаружили стат. значимый результат, мы говорим некоторый набор фраз, о стат. значимости, о предположении наличия эффекта на базе этого, об отклонении нулевой гипотезы; все, кроме самого этого утверждения, хотя и хочется.
—
Этим-то и подкупает байесовский подход, у него есть Probability to be best, PBB для А и для B:
Сначала PBB (A>B) = PBB(B>A) = 0.5
Собирай данные, обновляй эти пробабилити, видишь, PBB(B>A) = 96.543% -> что читаешь, то и понимаешь - конкретика!
Го Байес?
—
А частотный подход в своих стат. теста что дает? Да только значение статистики и p-value. Что еще надо бы проинтерпретировать...
2) Интерпретация p-value. P-value - это вероятность обнаружить такой же или более экстремальный эффект тогда, когда верна нулевая гипотеза. Ничего другого про p-value сказать нельзя. Это можно либо понять (увидеть), либо запомнить. Но отмечу, разница между пониманием и знаниям тут есть: в первом случае вы никогда сами не сможете его иначе сформулировать, а во втором все же иногда будете ошибаться в формулировке, потому что без картинки и вывода этого значения оно так и останется будто бы заклинанием. И ошибаться тут критично: можно далеко уйти нетуда из-за этого.
Статистики-частотники (=фреквенсисты) хорошо осведомлены про 1-ое и 2-ое.
Можно даже сказать, что почти за 100 лет p-value их уже подбешивает (приведу цитату в конце).
Современные их телодвижения состоят в том, чтобы:
а) выжать из p-value хоть какую-то доп. информацию:
- вероятность/риск, что полученные стат. значимые результаты ложноположительны (False Positive Risk).
- вероятность (перевзвешанная) альтернативной гипотезы через значение p-value,
Ирония в том, что они используют для этого Байес. Почему ирония? Потому что байесианцы это соперники для частотников (фреквенсистов)! Впрочем, как часто и бывают, соперничают только радикалы от тех и других, остальным все равно)
b) дать ответ, что лучше A или B не хуже Баейса, для этого есть набирающий (снова) популярность подход как Probabilistic Index
Вот об этом и будем говорить далее.
👍1
Обещанная цитата про p-value отсюда, немного перефразировав: an inferential index that tells us where we stand, but does not tell how much distance we have covered. - условно, значение, которое говорит, где мы стоим, но не говорит, как многое мы узнали (заапдейтили нашу гипотезу)
До этого писалось следующее, менее важное, просто, мол, никуда не двигались толком 100 лет:
...The introduction of hypothesis testing in 1933 precipitated more intense engagement, caused by the subsuming of Fisher’s “significance test” into the hypothesis test machinery. But we (and I) still use P-values. And when a journal like Epidemiology takes a principled stand against them, pidemiologists who may recognize the limitations of P-values still feel as if they are being forced to walk on one leg.
...Although I applaud the motivation of attempts to eliminate P-values, they have failed in the past and I predict that they will continue to fail...
...Now let us imagine another world – Imagine a number that does not tell us what we know, but how much we have learned. Such a number could lead us to think very differently about the role of data in making inferences, and in turn lead us to write about our data in a profoundly different manner...
(далее говорится о том, что такое число есть и это фактор Баейса, Bayes factor - вероятность одной гипотезы поделенную на другую, которая дает нам по сути шансы а-ля 9:1 и пр.)
Цитату вбейте в переводчик, плюс-минус смысл он неплохо передаст
До этого писалось следующее, менее важное, просто, мол, никуда не двигались толком 100 лет:
...The introduction of hypothesis testing in 1933 precipitated more intense engagement, caused by the subsuming of Fisher’s “significance test” into the hypothesis test machinery. But we (and I) still use P-values. And when a journal like Epidemiology takes a principled stand against them, pidemiologists who may recognize the limitations of P-values still feel as if they are being forced to walk on one leg.
...Although I applaud the motivation of attempts to eliminate P-values, they have failed in the past and I predict that they will continue to fail...
...Now let us imagine another world – Imagine a number that does not tell us what we know, but how much we have learned. Such a number could lead us to think very differently about the role of data in making inferences, and in turn lead us to write about our data in a profoundly different manner...
(далее говорится о том, что такое число есть и это фактор Баейса, Bayes factor - вероятность одной гипотезы поделенную на другую, которая дает нам по сути шансы а-ля 9:1 и пр.)
Цитату вбейте в переводчик, плюс-минус смысл он неплохо передаст
Итак, товарищи статистики, продолжим:
а) выжимаем p-value доп. информацию
- вероятность/риск, что полученные стат. значимые результаты ложноположительны (False Positive Risk).
Когда вы начнете вести свои тесты в компании, вам будет довольно легко подсчитать кол-во не просто стат. значимых, а успешных, прокрашенных зелёненьким для метрик, тестов, пример таблицы:
№ теста | Успешный ли тест?
————-|————
Тест №1 | 0
————-|————
Тест №2 | 0
————-|————
Тест №3 | 1
Из 3 тестов только 1 был успешным, значит ваш Success Rate (вероятность успешного теста) = 1/3 = 33% - такую метрику считают все громкие имена как Google, Netflix и, конечно, X5 тоже. Считайте и вы, чтобы выпендриваться)
На самом деле 33% это слишком круто, обычно это цифра 5-10%, то есть если это 10%, то только 10 из 100 тестов будут успешными для вас.
Что мы делаем с этой цифрой далее?
Запишем формулу вероятности нулевой гипотезы, при условии стат. значимого теста, P(H0|SS), то есть перевзвесим вероятность H0, а значит применим формулу Байеса, см. мой пост тут.
P(H0|SS) = P(SS | H0) * P(H0) / P(SS)
P(SS|H0) - вероятность стат. значимого результата при верности нулевой гипотезы
P(H0) - вероятность верности нулевой гипотезы вообще: в рамках наших данных это будут только те тесты, в рамках которых мы не смогли отклонить нулевую гипотезу, Тест №1 и Тест №2 (они не стат. значимы в другую сторону - прим.)
100% - 33.333% ~ 66% ~ 0.66
P(SS) - вероятность стат. значимого результата. При вероятности нулевой гипотезы это альфа (увы, тут надо бы знать заранее, что это такое - добро пожаловать на поток, хе-хе), а так как мы рассматриваем случаи, когда тест для нас не только стат. значим, но только положителен, то есть стат. значим НЕ в обе стороны, А в одну (если снова не понимаете о чем речь - в поток, ребята, поток!), то это альфа=0.05/2 = 0.025. Пускай она альфа/2 в среднем по всем 3 тестам была равна 0.025.
Распишем P(SS) = P(SS|H0)*P(H0) + P(SS|~H0)*P(~H0)
P(SS|H0)*P(H0) - из вычислений выше это 0.025*0.66
Разберем это: P(SS|~H0)*P(~H0)
P(~H0) - вероятность неверности нулевой гипотезы. Это у нас Success Rate = 33% = 0.33
P(SS|~H0) - вероятность стат.значимого результата при верности альтернативной гипотезы. Мы задаем это через мощность, а мощность это у нас 1-Beta, где Beta это ошибка 2-го рода. Возьмем среднюю мощность всех тестов, пускай это 0.8
Итого: P(H0|SS) = P(SS | H0) * P(H0) / (P(SS|H0)*P(H0) + P(SS|~H0)*P(~H0)) = 0.025*0.66/ (0.025*0.66 + 0.8*0.33) = 0.058 = 5.8% - наш False Positive Risk (FPR)
Это - вероятность того, что наш тест №3 был ложноположителен. Если бы тестов стат. значимых и успешных было бы больше, это P(H0|SS) как FPR был бы оценкой для всех этих тестов.
Теперь вы аки Microsoft, Netflix и X5 можете подсчитать FRP и у себя :)
P.S. P(SS | H0) * P(H0) / (P(SS|H0)*P(H0) + P(SS|~H0)*P(~H0)) можно переписать как это делают в некоторых статьях:
Общий случай (двусторонний):
alpha * П / (alpha * П + (1 - Beta) (1 - П), - П - это тоже самое, что P(H0), см. определение выше.
если alpha = 0.05, Beta = 0.2, тогда
0.05П /(0.05П + 0.8(1-П)) =
= 0.05П/(0.8 - 0.75П)
Случай стат. положительных тестов:
alpha/2 * П / (alpha/2 * П + (1 - Beta) (1 - П))
если alpha = 0.05, Beta = 0.2, тогда
0.025П/(0.8 - 0.775П)
подставляем из нашего примера П=0.33, получаем 0.025*0.666666/(0.8-0.775*0.666666) ~ 5.8%
а) выжимаем p-value доп. информацию
- вероятность/риск, что полученные стат. значимые результаты ложноположительны (False Positive Risk).
Когда вы начнете вести свои тесты в компании, вам будет довольно легко подсчитать кол-во не просто стат. значимых, а успешных, прокрашенных зелёненьким для метрик, тестов, пример таблицы:
№ теста | Успешный ли тест?
————-|————
Тест №1 | 0
————-|————
Тест №2 | 0
————-|————
Тест №3 | 1
Из 3 тестов только 1 был успешным, значит ваш Success Rate (вероятность успешного теста) = 1/3 = 33% - такую метрику считают все громкие имена как Google, Netflix и, конечно, X5 тоже. Считайте и вы, чтобы выпендриваться)
На самом деле 33% это слишком круто, обычно это цифра 5-10%, то есть если это 10%, то только 10 из 100 тестов будут успешными для вас.
Что мы делаем с этой цифрой далее?
Запишем формулу вероятности нулевой гипотезы, при условии стат. значимого теста, P(H0|SS), то есть перевзвесим вероятность H0, а значит применим формулу Байеса, см. мой пост тут.
P(H0|SS) = P(SS | H0) * P(H0) / P(SS)
P(SS|H0) - вероятность стат. значимого результата при верности нулевой гипотезы
P(H0) - вероятность верности нулевой гипотезы вообще: в рамках наших данных это будут только те тесты, в рамках которых мы не смогли отклонить нулевую гипотезу, Тест №1 и Тест №2 (они не стат. значимы в другую сторону - прим.)
100% - 33.333% ~ 66% ~ 0.66
P(SS) - вероятность стат. значимого результата. При вероятности нулевой гипотезы это альфа (увы, тут надо бы знать заранее, что это такое - добро пожаловать на поток, хе-хе), а так как мы рассматриваем случаи, когда тест для нас не только стат. значим, но только положителен, то есть стат. значим НЕ в обе стороны, А в одну (если снова не понимаете о чем речь - в поток, ребята, поток!), то это альфа=0.05/2 = 0.025. Пускай она альфа/2 в среднем по всем 3 тестам была равна 0.025.
Распишем P(SS) = P(SS|H0)*P(H0) + P(SS|~H0)*P(~H0)
P(SS|H0)*P(H0) - из вычислений выше это 0.025*0.66
Разберем это: P(SS|~H0)*P(~H0)
P(~H0) - вероятность неверности нулевой гипотезы. Это у нас Success Rate = 33% = 0.33
P(SS|~H0) - вероятность стат.значимого результата при верности альтернативной гипотезы. Мы задаем это через мощность, а мощность это у нас 1-Beta, где Beta это ошибка 2-го рода. Возьмем среднюю мощность всех тестов, пускай это 0.8
Итого: P(H0|SS) = P(SS | H0) * P(H0) / (P(SS|H0)*P(H0) + P(SS|~H0)*P(~H0)) = 0.025*0.66/ (0.025*0.66 + 0.8*0.33) = 0.058 = 5.8% - наш False Positive Risk (FPR)
Это - вероятность того, что наш тест №3 был ложноположителен. Если бы тестов стат. значимых и успешных было бы больше, это P(H0|SS) как FPR был бы оценкой для всех этих тестов.
Теперь вы аки Microsoft, Netflix и X5 можете подсчитать FRP и у себя :)
P.S. P(SS | H0) * P(H0) / (P(SS|H0)*P(H0) + P(SS|~H0)*P(~H0)) можно переписать как это делают в некоторых статьях:
Общий случай (двусторонний):
alpha * П / (alpha * П + (1 - Beta) (1 - П), - П - это тоже самое, что P(H0), см. определение выше.
если alpha = 0.05, Beta = 0.2, тогда
0.05П /(0.05П + 0.8(1-П)) =
= 0.05П/(0.8 - 0.75П)
Случай стат. положительных тестов:
alpha/2 * П / (alpha/2 * П + (1 - Beta) (1 - П))
если alpha = 0.05, Beta = 0.2, тогда
0.025П/(0.8 - 0.775П)
подставляем из нашего примера П=0.33, получаем 0.025*0.666666/(0.8-0.775*0.666666) ~ 5.8%
👍1
Не AБы какие тесты pinned «О чем этот канал и кто автор? Всем привет! С вами Серега на связи. Сейчас я лид продуктовой и маркетинговой аналитики в X5, 5-чка, все A/B 5-ки проходят через мои руки. Это - канал по статистике и циклу курсов по A/B-тестам за моим авторством. Тут я буду…»
Возвращаемся к а), часть-2, товарищи статистики!
- вероятность (перевзвешанная) альтернативной гипотезы через значение p-value,
Это часть будет сложнее, она и у меня собирается по частям так-то, так что жуйте без спешки.
Напомню: число успешных тестов, Success Rate, не очень велико, как и говорил, это 5-10%, зависит от индустрии -> можете посмотреть эти данные от Microsoft, Neflix и пр.
б) Возьмём, что в нашем случае оно составляет 10%. И пускай при этом все из них были действительно успешны, true positive. Значит, шансы, что наша конкретная гипотеза в конкретном эксперименте будет успешна P(HA) = 10% = 0.1
Распишем согласно Баейсу (пост с разбором формулы тут) вероятность P(HA|p-value) как переоценка HA при условии "конкретного" p-value:
P(HA|p-value) = P(p-value|HA)*P(HA)/P(p-value)
P(p-value|HA) - вероятность конкретного p-value при верности HA
P(HA) - вероятность HA = 0.1
P(p-value) - вероятность конкретного значения p-value
P(p-value) = P(p-value|HA)*P(HA)+P(p-value|-HA)*P(-HA)
или
P(p-value|HA)*P(HA)+P(p-value|H0)*P(H0)
P(H0) = 1 - P(HA) = 0.9
Нам нужно выяснить, чему равно P(p-value|HA), P(p-value|H0)
Сделаем это.
Предварительно мы сделали дизайн теста, альфа = 0.05, мощность = 0.8, выяснили MDE.
1) Далее сделали симуляцию распределений p-value когда эффекта нет (верна H0), p-value ожидаемо в 5% случае оказался от 0.05 и ниже согласно альфе, см. картинку 1
При этом важно (!) cтат. значимый результат при H0 может быть в обе стороны у нас, нас интересует только ложноположительность, когда результат для нас положительный. А это случается в половине всех p-value <= alpha. То есть от красного квадратика мы берем половину, картинка 2!
2) Далее подсчитали, когда эффект есть (HA), p-value ниже 0.05 в 80% согласно мощности, картинка 3.
3) Посмотрим только те p-value по H0 и HA, которые <= 0.05, то есть стат. значимые согласно альфе, картинка 4
Продолжение ниже...
- вероятность (перевзвешанная) альтернативной гипотезы через значение p-value,
Это часть будет сложнее, она и у меня собирается по частям так-то, так что жуйте без спешки.
Напомню: число успешных тестов, Success Rate, не очень велико, как и говорил, это 5-10%, зависит от индустрии -> можете посмотреть эти данные от Microsoft, Neflix и пр.
б) Возьмём, что в нашем случае оно составляет 10%. И пускай при этом все из них были действительно успешны, true positive. Значит, шансы, что наша конкретная гипотеза в конкретном эксперименте будет успешна P(HA) = 10% = 0.1
Распишем согласно Баейсу (пост с разбором формулы тут) вероятность P(HA|p-value) как переоценка HA при условии "конкретного" p-value:
P(HA|p-value) = P(p-value|HA)*P(HA)/P(p-value)
P(p-value|HA) - вероятность конкретного p-value при верности HA
P(HA) - вероятность HA = 0.1
P(p-value) - вероятность конкретного значения p-value
P(p-value) = P(p-value|HA)*P(HA)+P(p-value|-HA)*P(-HA)
или
P(p-value|HA)*P(HA)+P(p-value|H0)*P(H0)
P(H0) = 1 - P(HA) = 0.9
Нам нужно выяснить, чему равно P(p-value|HA), P(p-value|H0)
Сделаем это.
Предварительно мы сделали дизайн теста, альфа = 0.05, мощность = 0.8, выяснили MDE.
1) Далее сделали симуляцию распределений p-value когда эффекта нет (верна H0), p-value ожидаемо в 5% случае оказался от 0.05 и ниже согласно альфе, см. картинку 1
При этом важно (!) cтат. значимый результат при H0 может быть в обе стороны у нас, нас интересует только ложноположительность, когда результат для нас положительный. А это случается в половине всех p-value <= alpha. То есть от красного квадратика мы берем половину, картинка 2!
2) Далее подсчитали, когда эффект есть (HA), p-value ниже 0.05 в 80% согласно мощности, картинка 3.
3) Посмотрим только те p-value по H0 и HA, которые <= 0.05, то есть стат. значимые согласно альфе, картинка 4
Продолжение ниже...
4.1) Так как p-value непрерывная величина, то нельзя взять так просто и подсчитать вероятность конкретного p-value, поэтому вместо, например, P(p-value=0.05) мы возьмем P(0.0499 =< p-value <= 0.05). Сиська? Сиська! Почти тож самое, мать твою (с)
Поэтому считаем P(0.0499 =< p-value <= 0.05), а думаем о P(p-value=0.05)
4.2) На сгенерированных данных вышло следующее:
P(p-value|HA) = P(0.05|HA) = 0.028
P(p-value|H0) = P(0.05|H0) = 0.008
Смотрим картинку 5 - ну в целом размер желтого прямоугольника против синего в красном квадрате на то и похоже в плане пропорции.
5.1) Считаем P(HA|0.05) = (0.028*0.1) / (0.028*0.1+0.008*0.9) = 0.28 = 28%, КАРЛ.
То есть стат. значимый результат = 0.05 не ахти как перевзвешивает нашу гипотезу.
Такое себе.
5.2) А что будет, если взять p-value = 0.01 (интервал от 0.0099 до 0.01)? Картинка 6
P(p-value|HA) = P(0.05|HA) = 0.172
P(p-value|H0) = P(0.05|H0) = 0.01
P(HA|0.05) = (0.172*0.1) / (0.172*0.1+0.01*0.9) = 0.65 = 65%. И также не особо лучше.
Короче: теперь статистики всерьез задумались об альфе = 0.005. Потому что P(HA|0.005) стремится к 1. Ну и потому, что это как будто бы решает проблему репликации (повторяемости) исследований.
А все, что находится между 0.005 и 0.05 - это теперь "suggestive", гугл переводит это как на "наводящий на размышления", смешно: тест теперь не стат. значимый в этом диапазоне, а "наводящий на размышления",нах .
При этом это не предел для минимизации альфы, о, нет! (хе-хе)
Но об этом в следующий раз.
Поэтому считаем P(0.0499 =< p-value <= 0.05), а думаем о P(p-value=0.05)
4.2) На сгенерированных данных вышло следующее:
P(p-value|HA) = P(0.05|HA) = 0.028
P(p-value|H0) = P(0.05|H0) = 0.008
Смотрим картинку 5 - ну в целом размер желтого прямоугольника против синего в красном квадрате на то и похоже в плане пропорции.
5.1) Считаем P(HA|0.05) = (0.028*0.1) / (0.028*0.1+0.008*0.9) = 0.28 = 28%, КАРЛ.
То есть стат. значимый результат = 0.05 не ахти как перевзвешивает нашу гипотезу.
Такое себе.
5.2) А что будет, если взять p-value = 0.01 (интервал от 0.0099 до 0.01)? Картинка 6
P(p-value|HA) = P(0.05|HA) = 0.172
P(p-value|H0) = P(0.05|H0) = 0.01
P(HA|0.05) = (0.172*0.1) / (0.172*0.1+0.01*0.9) = 0.65 = 65%. И также не особо лучше.
Короче: теперь статистики всерьез задумались об альфе = 0.005. Потому что P(HA|0.005) стремится к 1. Ну и потому, что это как будто бы решает проблему репликации (повторяемости) исследований.
А все, что находится между 0.005 и 0.05 - это теперь "suggestive", гугл переводит это как на "наводящий на размышления", смешно: тест теперь не стат. значимый в этом диапазоне, а "наводящий на размышления",
При этом это не предел для минимизации альфы, о, нет! (хе-хе)
Но об этом в следующий раз.
👍2
Поддержу тренд и расскажу, почему нужна n-1 в оценке выборочной дисперсии.
Картинки из моего курса по базе A/B вместо тысячи слов!
1. Выборочная дисперсия на малых выборках в среднем ниже дисперсии генеральной (тут для примера ГС = 4, а среднее по выборочной = 1.96)
Поэтому статистики, точнее товарищ Bessel, подумал, а почему бы нам ее просто не сместить на -1 ?
И вот результат: в среднем (но не в каждом конкретном случае!) у нас скорректированная оценка близка (3.85 vs 4) истинной. Клево, да?
2. Вообще-то, когда у вас выборки достаточно большие (таблица t значений намекает на более 10к), у вас выборочная дисперсия близка дисперсии популяции. Так что поправка необязательна.Но если вы не можете это объяснить или если забудете, тогда для вас она - обязательна.
P.S. Пожалуйста, давайте больше не будем говорить на собеседованиях про такое конченное понятие как "степенинепонимания свободы"
P.S.S. Есть еще одна интересная и неочевидная корректировка, которая прямо относится к A/B, расскажу как-нибудь о ней тоже
Картинки из моего курса по базе A/B вместо тысячи слов!
1. Выборочная дисперсия на малых выборках в среднем ниже дисперсии генеральной (тут для примера ГС = 4, а среднее по выборочной = 1.96)
Поэтому статистики, точнее товарищ Bessel, подумал, а почему бы нам ее просто не сместить на -1 ?
И вот результат: в среднем (но не в каждом конкретном случае!) у нас скорректированная оценка близка (3.85 vs 4) истинной. Клево, да?
2. Вообще-то, когда у вас выборки достаточно большие (таблица t значений намекает на более 10к), у вас выборочная дисперсия близка дисперсии популяции. Так что поправка необязательна.
P.S. Пожалуйста, давайте больше не будем говорить на собеседованиях про такое конченное понятие как "степени
P.S.S. Есть еще одна интересная и неочевидная корректировка, которая прямо относится к A/B, расскажу как-нибудь о ней тоже
👍4
Легкое пятничное: недавно задался вопросом с подачи супруги, а какая проблема могла помочь придумать дисперсию и стандартное отклонение? То есть когда мы стали бы ломать голову и что-то пытаться придумать, чтобы изобрести их?
Мне упорно приходят в голову задача рассказать про самое важное различие в цифрах двух нормально распределенные популяции, у которых одинаковые средние, близкие максимум и минимум, при этом у первого распределения данные довольно быстро расползаются от среднего, а у второго нет. Получается, мы это визуально видим различия, может даже проговорить ("по-разному стоят от среднего"), а вот цифры аналогичной max, min, avg нет.
То есть наша задача рассказать о наблюдаемом одним единственным значением. По идее первая наша мысль на основе видимого (данные по-разному ведут себя у среднего) это "оценить расстояние до среднего". Конечно, у каждого значения это расстояние будет своим. Поэтому усреднение этих расстояний логичный шаг, который, правда, сразу привел бы к проблеме зануления. И вот тут я думаю, что до квадрата разниц и после корня из, я бы не допер, а предложил взять по модулю эти разницы, - по моему опыту, это обычно первое, что предлагают в качестве решения те, кто только столкнулся с оценкой среднего расстояния от среднего.
Ну и скорее всего стал сторонником модуля разницы, не понимая все эти финты с квадратом и корнем, считая это пушкой по воробьям с примерно тем же результатом. Итого, не дисперсия и ср. кв. отклонение это у меня было бы, а просто вывод в свет стандартного отклонения, без кв. Получается не вывел бы прям именно ту самую дисперсию? Вероятно, но в сущности дисперсия это про тож самое "средние разниц расстояний элементов от среднего".
Я к чему? Да в принципе в статистике так все и рождается, как мне видится. Вот, например, статья от коллеги, Николая Назарова, про то, как придумать собственный критерий в случай малых выборок из ненормальной генеральной.
Действительно, распределение средних малых выборок из ненормальных популяций также ненормально, а потому при попытке применить t-test t-статистика будет приземлятся на НЕ-t-распределение. Во время отсутствия компуктеров оставалось мало вариантов тестирования малых выборок из ненормальных генеральных. Cразу вспоминают о а-ля Манн-Уитни, но он-то проверяет другую гипотезу в отличии от t-test'a (о Манне-Уитни у меня очень-очень скоро будет большая статья с Яндексом, демистифицируем его по полной). А сейчас: бери свою ненормальную генеральную, генерируй выборки, применяй t-test, смотри каким будет НЕ-t-распределение -> это и будет распределение для нулевой для данной ненорм генеральной для t-test'a. Очень здраво! Это если очень кратко. У Коли все подробнее, формализованее и с аккуратной подводкой как мы любим (верно же?). Наслаждайтесь!
То есть получается этот пост все же немного тяжелое пятничное. Специально ли я так сделал? А я сам не знаю, просто к слову пришлось да и темой, что Коля описал, занимался, но решил, что в наш век BigData малые выборки это такое, узкоспециализированное. С другой стороны, малые выборки - это хороший способ проверить на наличие радикальных отличий, то есть такой контроль на очень большую разницу (которой быть не должно), держите это в голове при чтении статьи как ответ на вопрос о прикладом смысле теста на малых.
Мне упорно приходят в голову задача рассказать про самое важное различие в цифрах двух нормально распределенные популяции, у которых одинаковые средние, близкие максимум и минимум, при этом у первого распределения данные довольно быстро расползаются от среднего, а у второго нет. Получается, мы это визуально видим различия, может даже проговорить ("по-разному стоят от среднего"), а вот цифры аналогичной max, min, avg нет.
То есть наша задача рассказать о наблюдаемом одним единственным значением. По идее первая наша мысль на основе видимого (данные по-разному ведут себя у среднего) это "оценить расстояние до среднего". Конечно, у каждого значения это расстояние будет своим. Поэтому усреднение этих расстояний логичный шаг, который, правда, сразу привел бы к проблеме зануления. И вот тут я думаю, что до квадрата разниц и после корня из, я бы не допер, а предложил взять по модулю эти разницы, - по моему опыту, это обычно первое, что предлагают в качестве решения те, кто только столкнулся с оценкой среднего расстояния от среднего.
Ну и скорее всего стал сторонником модуля разницы, не понимая все эти финты с квадратом и корнем, считая это пушкой по воробьям с примерно тем же результатом. Итого, не дисперсия и ср. кв. отклонение это у меня было бы, а просто вывод в свет стандартного отклонения, без кв. Получается не вывел бы прям именно ту самую дисперсию? Вероятно, но в сущности дисперсия это про тож самое "средние разниц расстояний элементов от среднего".
Я к чему? Да в принципе в статистике так все и рождается, как мне видится. Вот, например, статья от коллеги, Николая Назарова, про то, как придумать собственный критерий в случай малых выборок из ненормальной генеральной.
Действительно, распределение средних малых выборок из ненормальных популяций также ненормально, а потому при попытке применить t-test t-статистика будет приземлятся на НЕ-t-распределение. Во время отсутствия компуктеров оставалось мало вариантов тестирования малых выборок из ненормальных генеральных. Cразу вспоминают о а-ля Манн-Уитни, но он-то проверяет другую гипотезу в отличии от t-test'a (о Манне-Уитни у меня очень-очень скоро будет большая статья с Яндексом, демистифицируем его по полной). А сейчас: бери свою ненормальную генеральную, генерируй выборки, применяй t-test, смотри каким будет НЕ-t-распределение -> это и будет распределение для нулевой для данной ненорм генеральной для t-test'a. Очень здраво! Это если очень кратко. У Коли все подробнее, формализованее и с аккуратной подводкой как мы любим (верно же?). Наслаждайтесь!
То есть получается этот пост все же немного тяжелое пятничное. Специально ли я так сделал? А я сам не знаю, просто к слову пришлось да и темой, что Коля описал, занимался, но решил, что в наш век BigData малые выборки это такое, узкоспециализированное. С другой стороны, малые выборки - это хороший способ проверить на наличие радикальных отличий, то есть такой контроль на очень большую разницу (которой быть не должно), держите это в голове при чтении статьи как ответ на вопрос о прикладом смысле теста на малых.
1) Понимание заказчиком всех этих альф, мощностей и пр. это, как правило, вежливость с их стороны. Обычно, для них эта абстракция. Поэтому чтобы сделать их жизнь несколько проще, то в рамках дизайна после подсчета MDE (при заданных параметрах с учетом возможности задействовать какую-то часть генеральной / с учетом ограничений по периоду) отдельным параграфом рекомендовано показать картинку всевозможных разниц. Это легко сделать, сгенерировав данные при верности H0 и HA=H0+MDE.
Отсюда уже легче объяснить все эти параметры, что вот, смотрите, при таком размере выборки мы можем обнаружить такой-то минимальный эффект (расстояние между зелеными в точечку линиями). При этом вот все наши возможные разницы, если верна H0 (различий нет) и HA (различия есть с таким MDE).
- Если верна HA, то желтая* область это то, где мы увидим стат. значимость и это ок, а черная область, где не обнаружим, и это плохо, но вероятно.
*ес-сно, если эффект прям большой, то эта разница уйдет далеко вправо и не будет и в желтой зоне, но очевидно, что это нетрудно объяснить как что-то хорошее;
- Если верна H0 и разницы на самом деле нет, то красная область это тоже стат. значимый эффект, просто наш результат будет ложноположительный, это не ок, но вероятно.
Конечно, это визуализация работает только в рамках самого массового t-test'a. С тестом на однородность иначе, как - покажу после статьи по Mann-Whitney.
2) И еще кое-что. В заметке про MDE было такое словосочетание как "минимально значимое отличие". Так вот, этому понятию место-то есть:
- с точки зрения стандартизированных разниц это критическое значение (при альфе = 0.05 и в случае больших выборок это z=1.96), одно из, если тест двусторонний.
- с точки зрения абсолютных разниц и подсчитанного MDE, это конкретное критическое значение, в нашем примере ~ 0.356. Это просто (в случае справа) 1-альфа/2. У нас альфа = 0.05, это 1-0.05/2 = 1-0.025 = 0.975 квантиль. Далее np.quantile(diff_h0, 0.975), где diff_h0 - это всевозможные разницы при верности Нулевого гипотезы.
Отсюда уже легче объяснить все эти параметры, что вот, смотрите, при таком размере выборки мы можем обнаружить такой-то минимальный эффект (расстояние между зелеными в точечку линиями). При этом вот все наши возможные разницы, если верна H0 (различий нет) и HA (различия есть с таким MDE).
- Если верна HA, то желтая* область это то, где мы увидим стат. значимость и это ок, а черная область, где не обнаружим, и это плохо, но вероятно.
*ес-сно, если эффект прям большой, то эта разница уйдет далеко вправо и не будет и в желтой зоне, но очевидно, что это нетрудно объяснить как что-то хорошее;
- Если верна H0 и разницы на самом деле нет, то красная область это тоже стат. значимый эффект, просто наш результат будет ложноположительный, это не ок, но вероятно.
Конечно, это визуализация работает только в рамках самого массового t-test'a. С тестом на однородность иначе, как - покажу после статьи по Mann-Whitney.
2) И еще кое-что. В заметке про MDE было такое словосочетание как "минимально значимое отличие". Так вот, этому понятию место-то есть:
- с точки зрения стандартизированных разниц это критическое значение (при альфе = 0.05 и в случае больших выборок это z=1.96), одно из, если тест двусторонний.
- с точки зрения абсолютных разниц и подсчитанного MDE, это конкретное критическое значение, в нашем примере ~ 0.356. Это просто (в случае справа) 1-альфа/2. У нас альфа = 0.05, это 1-0.05/2 = 1-0.025 = 0.975 квантиль. Далее np.quantile(diff_h0, 0.975), где diff_h0 - это всевозможные разницы при верности Нулевого гипотезы.
❤3
Привет, товарищи статистики!
Закроем примером известное высказывание:
"Корреляция не подразумевает каузацию, то есть наличия причинно-следственных связей".
[ По этой теме не пишет только ленивый. А я немного ленивый, поэтому и пишу не сразу, хотя планировал. Я хотел найти свой же собственный пример, который помнил так-то (но лень было писать заново). Лааааадно, я даже не пытался его найти, а когда попытался, нашел меньше, чем за минуту. ]
Пример для понимания.
Провели наблюдение за людьми - сколько человек весит, ось X, и сколько пьют воды, ось Y. Обнаружили положительную корреляцию - с увеличением веса росло и кол-во миллилитров воды в день. Или - с увеличением миллитров воды в день рос и вес.
Одно не обуславливает другого. Есть скрытый фактор, диабет, и его побочный эффект - повышенный сахар. Именно он усугубляет вес и вызывает жажду.
Считая же, что вес причина потребления больше воды или что вода причина веса мы можем сделать аж 4-е направильных вывода.
Неправильный вывод №1: надо пить меньше воды, чтобы похудеть (с излишним весом: "изи")
Неправильный вывод №2: надо пить больше воды, чтобы набрать вес (с недовесом: "изи")
Неправильный вывод №3: надо толстеть, чтобы пить больше воды (доктор сказал, больше жидкости)
Неправильный вывод №4: надо худеть, чтобы меньше пить воды
Пример плюшевый, но должен быть доступный.
А чтобы точно суметь всегда объяснить, придумайте свой пример для себя же. Разбуди, - расскажите.
Закроем примером известное высказывание:
"Корреляция не подразумевает каузацию, то есть наличия причинно-следственных связей".
[ По этой теме не пишет только ленивый. А я немного ленивый, поэтому и пишу не сразу, хотя планировал. Я хотел найти свой же собственный пример, который помнил так-то (но лень было писать заново). Лааааадно, я даже не пытался его найти, а когда попытался, нашел меньше, чем за минуту. ]
Пример для понимания.
Провели наблюдение за людьми - сколько человек весит, ось X, и сколько пьют воды, ось Y. Обнаружили положительную корреляцию - с увеличением веса росло и кол-во миллилитров воды в день. Или - с увеличением миллитров воды в день рос и вес.
Одно не обуславливает другого. Есть скрытый фактор, диабет, и его побочный эффект - повышенный сахар. Именно он усугубляет вес и вызывает жажду.
Считая же, что вес причина потребления больше воды или что вода причина веса мы можем сделать аж 4-е направильных вывода.
Неправильный вывод №1: надо пить меньше воды, чтобы похудеть (с излишним весом: "изи")
Неправильный вывод №2: надо пить больше воды, чтобы набрать вес (с недовесом: "изи")
Неправильный вывод №3: надо толстеть, чтобы пить больше воды (доктор сказал, больше жидкости)
Неправильный вывод №4: надо худеть, чтобы меньше пить воды
Пример плюшевый, но должен быть доступный.
А чтобы точно суметь всегда объяснить, придумайте свой пример для себя же. Разбуди, - расскажите.
Привет, товарищи статистики!
Помимо уважаемых, но избитых ошибок 1-го и 2-го рода есть еще две, тесно связанных с мощностью:
- Type S error как ошибка знака
- Type M error как переоценка эффекта
Сегодня рассмотрим Type S ошибку как имеющую значения для тестов с мощностью ниже 40%, пусть наш MDE = +0.5 (24 vs 24.5).
И вновь абсолютные значения помогут нам все увидеть. Cтроим разницы выборочных средних выборок по 2 измерения в каждой из H0, проводим классические границы значимости (0.05). Вторым шагом - всевозможные разницы между выборочными средним из H0 и из HA.
Обратите внимание, у нас относительно HA в границах значимости H0 появляются две зоны:
- зеленая, где мы отлавиваем эффект с нужным знаком (среднее выборки из HA больше H0);
- красная зона стат. значимых результатов, но такая, где среднее из HA очевидно меньше средней H0, то есть наш тест прокрашивается с другим, противоположным от ожидаемого знаком.
Это и есть ошибка знака. Мы бы отклонили нулевую гипотезу, но ошибочно посчитали бы, что наша новая фича работает хуже.
Если гененировать выборки под разные мощности от очень низкой до максимальной (точки X), делить красную долю на зеленую (=error rate, точки для Y), то у нас получится график зависимости Type S error rate от мощности.
Хорошо видно, что от 0.4 = 40% такой ошибки уже не возникает. Вопрос: зачем вообще об этом думать во времена классических 0.8? По двум причинам:
1) Теперь вы знаете еще одну цену малой мощности помимо малой вероятности обнаружить желаемый эффект, когда он реально есть.
2) Это полезно, если читаете какие-то исследования интересной вам области (у меня это пси-сфера), где малые выборки. Рекомендую смотреть на две вещи:
- MDE сквозь призму метрики: возможен ли он такой силы?
- на мощность. Если она маленькая, то сам по себе эксперимент "на удачу" + Type S и Type M включаются.
В следующий раз поговорим про Type M.
P.S. Делал быструю аппроксимацию этой функции, приблизительный результат на картинке. Подставляй мощность, получай оценку S ошибки, вноси в дизайн
Помимо уважаемых, но избитых ошибок 1-го и 2-го рода есть еще две, тесно связанных с мощностью:
- Type S error как ошибка знака
- Type M error как переоценка эффекта
Сегодня рассмотрим Type S ошибку как имеющую значения для тестов с мощностью ниже 40%, пусть наш MDE = +0.5 (24 vs 24.5).
И вновь абсолютные значения помогут нам все увидеть. Cтроим разницы выборочных средних выборок по 2 измерения в каждой из H0, проводим классические границы значимости (0.05). Вторым шагом - всевозможные разницы между выборочными средним из H0 и из HA.
Обратите внимание, у нас относительно HA в границах значимости H0 появляются две зоны:
- зеленая, где мы отлавиваем эффект с нужным знаком (среднее выборки из HA больше H0);
- красная зона стат. значимых результатов, но такая, где среднее из HA очевидно меньше средней H0, то есть наш тест прокрашивается с другим, противоположным от ожидаемого знаком.
Это и есть ошибка знака. Мы бы отклонили нулевую гипотезу, но ошибочно посчитали бы, что наша новая фича работает хуже.
Если гененировать выборки под разные мощности от очень низкой до максимальной (точки X), делить красную долю на зеленую (=error rate, точки для Y), то у нас получится график зависимости Type S error rate от мощности.
Хорошо видно, что от 0.4 = 40% такой ошибки уже не возникает. Вопрос: зачем вообще об этом думать во времена классических 0.8? По двум причинам:
1) Теперь вы знаете еще одну цену малой мощности помимо малой вероятности обнаружить желаемый эффект, когда он реально есть.
2) Это полезно, если читаете какие-то исследования интересной вам области (у меня это пси-сфера), где малые выборки. Рекомендую смотреть на две вещи:
- MDE сквозь призму метрики: возможен ли он такой силы?
- на мощность. Если она маленькая, то сам по себе эксперимент "на удачу" + Type S и Type M включаются.
В следующий раз поговорим про Type M.
P.S. Делал быструю аппроксимацию этой функции, приблизительный результат на картинке. Подставляй мощность, получай оценку S ошибки, вноси в дизайн
❤2👍1