Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
134 - Telegram Web
Telegram Web
Привет, товарищи-статистики!
Поговорим про доверительные интервалы.

По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.

Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?

Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%*. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.

Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.

Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.

Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.

Ссылка на симуляцию (там* надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)

Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.

P.S. Спрашивать на собеседовании я это, конечно, не буду.

*Важный UPDATE, возможно, слишком быстрый:
- Рома заставил еще раз задуматься, а все ли верно было рассчитано. У него выходило 77.5, это 80-2.5, где 2.5% значений лежали в зоне HA, которые находятся справа и попадают в 97.5 квантиль. То есть это были бы также "стат. значимые CI" (= не охватывают ноль, считать синонимом), но со значительным перелетом, без охвата истинного эффекта. Мы с Владом начинали с этих 77.5, потому что предполагали, что задача решается исключительно в голове, но симуляции нас заставили задуматься

- Упорно выходили значения 75-76, только оценкой перемножения наступления двух событий сразу вполне объясняло происходящее. И это казалось и кажется все еще логичным. Однако!

- Повторный возврат к симуляциям выявил следующее:
1) если у вас прям очень большие популяции, то изменение дисперсии в большую сторону (sic!) охватывало до 80% эффект согласно мощности. Это кажется логичным, так как такие популяции с большой дисперсией сильно разряженные, у вас будут высокодисперсивные выборки.

2) если популяции небольшие (1 млн.), то чем больше дисперсия, тем покрытие наоборот падает вплоть чуть ли не до 70%. Тут, возможно, проблема в конечной популяции и, как следствие, коррекции интервала. Хотя по идее конечная популяция создает проблему преувеличения надежности, тогда быть может, коррекция слишком сильная?..

3) Если зафиксировать seed генерации популяции, то результат = 77.5. Почему? Есть гипотеза, что фактически мы просто сдвигаем все элементы изначальной популяции на эффект, тем самым наши выборки также получались очень уж хорошо сдвинуты на этот эффект, то есть каждый элемент тестовой выборки получил тритмент с истинным эффектом (это имеет отношение sharp H0, которая как раз проверяет по каждому объекту сдвиг, представьте себе, что каждому из теста был свой клон в контроле). Тут, по-хорошему, проверить бы повторяемость этого.

Отсюда результат очередного подхода к этой проблеме такой:
- Покрытие мы получали от 70% до 80%
- Средние колебались от 75 до 76
- Есть подозрение, что есть оценщик всего этого, соблазнительна мысль, что это перемножение тех вероятностей выше, но такие результаты говорят будто о том, что это не независимые вероятности

Искали медь, а нашли портал в ад
👍192😱2
2025/10/08 12:40:08
Back to Top
HTML Embed Code: