tgoop.com/abba_testing/42
Last Update:
Легкое пятничное: недавно задался вопросом с подачи супруги, а какая проблема могла помочь придумать дисперсию и стандартное отклонение? То есть когда мы стали бы ломать голову и что-то пытаться придумать, чтобы изобрести их?
Мне упорно приходят в голову задача рассказать про самое важное различие в цифрах двух нормально распределенные популяции, у которых одинаковые средние, близкие максимум и минимум, при этом у первого распределения данные довольно быстро расползаются от среднего, а у второго нет. Получается, мы это визуально видим различия, может даже проговорить ("по-разному стоят от среднего"), а вот цифры аналогичной max, min, avg нет.
То есть наша задача рассказать о наблюдаемом одним единственным значением. По идее первая наша мысль на основе видимого (данные по-разному ведут себя у среднего) это "оценить расстояние до среднего". Конечно, у каждого значения это расстояние будет своим. Поэтому усреднение этих расстояний логичный шаг, который, правда, сразу привел бы к проблеме зануления. И вот тут я думаю, что до квадрата разниц и после корня из, я бы не допер, а предложил взять по модулю эти разницы, - по моему опыту, это обычно первое, что предлагают в качестве решения те, кто только столкнулся с оценкой среднего расстояния от среднего.
Ну и скорее всего стал сторонником модуля разницы, не понимая все эти финты с квадратом и корнем, считая это пушкой по воробьям с примерно тем же результатом. Итого, не дисперсия и ср. кв. отклонение это у меня было бы, а просто вывод в свет стандартного отклонения, без кв. Получается не вывел бы прям именно ту самую дисперсию? Вероятно, но в сущности дисперсия это про тож самое "средние разниц расстояний элементов от среднего".
Я к чему? Да в принципе в статистике так все и рождается, как мне видится. Вот, например, статья от коллеги, Николая Назарова, про то, как придумать собственный критерий в случай малых выборок из ненормальной генеральной.
Действительно, распределение средних малых выборок из ненормальных популяций также ненормально, а потому при попытке применить t-test t-статистика будет приземлятся на НЕ-t-распределение. Во время отсутствия компуктеров оставалось мало вариантов тестирования малых выборок из ненормальных генеральных. Cразу вспоминают о а-ля Манн-Уитни, но он-то проверяет другую гипотезу в отличии от t-test'a (о Манне-Уитни у меня очень-очень скоро будет большая статья с Яндексом, демистифицируем его по полной). А сейчас: бери свою ненормальную генеральную, генерируй выборки, применяй t-test, смотри каким будет НЕ-t-распределение -> это и будет распределение для нулевой для данной ненорм генеральной для t-test'a. Очень здраво! Это если очень кратко. У Коли все подробнее, формализованее и с аккуратной подводкой как мы любим (верно же?). Наслаждайтесь!
То есть получается этот пост все же немного тяжелое пятничное. Специально ли я так сделал? А я сам не знаю, просто к слову пришлось да и темой, что Коля описал, занимался, но решил, что в наш век BigData малые выборки это такое, узкоспециализированное. С другой стороны, малые выборки - это хороший способ проверить на наличие радикальных отличий, то есть такой контроль на очень большую разницу (которой быть не должно), держите это в голове при чтении статьи как ответ на вопрос о прикладом смысле теста на малых.
BY Не AБы какие тесты
Share with your friend now:
tgoop.com/abba_testing/42