STATS_FOR_SCIENCE Telegram 155
В предыдущем посте я попросила написать самые раздражающие вещи, связанные со статистикой, набралось очень много ответов, спасибо, было интересно почитать.

В комментариях Дамир Марапов отметил важную мысль, которую я считаю нужным вынести отдельно.

Примеры в комментариях можно условно разделить на:

- Явные ошибки, например в определениях: p-value это вероятность того, что нулевая гипотеза верна, достоверность различий и тому подобное.
- Неточности и ошибки в методологии: например, для t-теста нужно нормальное распределение исходных данных. Тут сложнее, так как конечно нужно нормальное распределение выборочных средних, но в случае нормального распределения данных, это выполняется автоматически. Отсюда и берется этот алгоритм проверки на нормальность тестами Шапиро-Уилка и прочее. Но мы не можем сказать, что всегда можно использовать t-тест не глядя, по ЦПТ, равно как и использовать всегда непараметрические критерии.

И вот про методологию хотелось бы поговорить отдельно.

При обучении статистике сталкиваешься с алгоритмами и догмами (делайте так, а вот так неправильно), это касается всего, в том числе выбора статистического теста (немного писала, почему это плохо в материале про тест Велча). Но алгоритмы хороши только на этапе обучения, а дальше уже выясняется, что “есть нюанс”.

Простой пример из комментариев — корреляция бинарных переменных. Если честно, я тоже думала, что корреляции и ковариации бинарных величин не бывает (ну как вы собрались коррелировать 0 и 1?), но оказывается это имеет смысл, вот здесь можно почитать подробнее.

Даже такой карикатурный пример про продакта, который просит подсчитать результаты АБ теста в разных сегментах, чтобы найти хоть где-то значимые различия не всегда однозначно абсурден. Например, если мы обнаружили, что на какой-то платформе и в каком-то гео есть значимые различия, то можно провести дополнительное исследование конкретно в этом сегменте, чтобы подтвердить различия (особенно если у этого есть продуктовое обоснование). Но конечно в формулировке:
найди мне хоть где-то в этом АБ значимые различия, поправку на множественное сравнение не делай, а то вся значимость уйдет

— это хрестоматийный пример как делать не надо.

Тест Манна-Уитни сравнивает медианы — это статистический миф, но при выполнении определенных условий (если совпадают формы распределений) тест Манна-Уитни действительно сравнивает медианы.

Подглядывание в A/B тесты - запрещено, но если делать sequential testing, то можно.

В общем, я хочу подчеркнуть, что многие статистические правила и рекомендации являются действительно рекомендациями, а не догмами, и что-то, что в учебнике было описано как неверное, может на самом деле быть применимым в определенных условиях.
Потому статистику невозможно освоить на хорошем уровне за один семестровый или годовой курс, хотя они дают хорошую базу для дальнейшего изучения. То же самое можно сказать про курсы повышения квалификации — это отличный задел на будущее, но не стоит думать, что после освоения такого курса вы сразу станете гуру статистики и никогда не будете ошибаться, просто перестанете делать очевидные ошибки.
Ну ладно, так у меня не купят рекламу)
Но если серьезно, то после любого курса нужно продолжать обучение, погружаться в детали, так как четкие алгоритмы и рекомендации хороши только для старта.

#stats
11🔥3413👍10



tgoop.com/stats_for_science/155
Create:
Last Update:

В предыдущем посте я попросила написать самые раздражающие вещи, связанные со статистикой, набралось очень много ответов, спасибо, было интересно почитать.

В комментариях Дамир Марапов отметил важную мысль, которую я считаю нужным вынести отдельно.

Примеры в комментариях можно условно разделить на:

- Явные ошибки, например в определениях: p-value это вероятность того, что нулевая гипотеза верна, достоверность различий и тому подобное.
- Неточности и ошибки в методологии: например, для t-теста нужно нормальное распределение исходных данных. Тут сложнее, так как конечно нужно нормальное распределение выборочных средних, но в случае нормального распределения данных, это выполняется автоматически. Отсюда и берется этот алгоритм проверки на нормальность тестами Шапиро-Уилка и прочее. Но мы не можем сказать, что всегда можно использовать t-тест не глядя, по ЦПТ, равно как и использовать всегда непараметрические критерии.

И вот про методологию хотелось бы поговорить отдельно.

При обучении статистике сталкиваешься с алгоритмами и догмами (делайте так, а вот так неправильно), это касается всего, в том числе выбора статистического теста (немного писала, почему это плохо в материале про тест Велча). Но алгоритмы хороши только на этапе обучения, а дальше уже выясняется, что “есть нюанс”.

Простой пример из комментариев — корреляция бинарных переменных. Если честно, я тоже думала, что корреляции и ковариации бинарных величин не бывает (ну как вы собрались коррелировать 0 и 1?), но оказывается это имеет смысл, вот здесь можно почитать подробнее.

Даже такой карикатурный пример про продакта, который просит подсчитать результаты АБ теста в разных сегментах, чтобы найти хоть где-то значимые различия не всегда однозначно абсурден. Например, если мы обнаружили, что на какой-то платформе и в каком-то гео есть значимые различия, то можно провести дополнительное исследование конкретно в этом сегменте, чтобы подтвердить различия (особенно если у этого есть продуктовое обоснование). Но конечно в формулировке:

найди мне хоть где-то в этом АБ значимые различия, поправку на множественное сравнение не делай, а то вся значимость уйдет

— это хрестоматийный пример как делать не надо.

Тест Манна-Уитни сравнивает медианы — это статистический миф, но при выполнении определенных условий (если совпадают формы распределений) тест Манна-Уитни действительно сравнивает медианы.

Подглядывание в A/B тесты - запрещено, но если делать sequential testing, то можно.

В общем, я хочу подчеркнуть, что многие статистические правила и рекомендации являются действительно рекомендациями, а не догмами, и что-то, что в учебнике было описано как неверное, может на самом деле быть применимым в определенных условиях.
Потому статистику невозможно освоить на хорошем уровне за один семестровый или годовой курс, хотя они дают хорошую базу для дальнейшего изучения. То же самое можно сказать про курсы повышения квалификации — это отличный задел на будущее, но не стоит думать, что после освоения такого курса вы сразу станете гуру статистики и никогда не будете ошибаться, просто перестанете делать очевидные ошибки.
Ну ладно, так у меня не купят рекламу)
Но если серьезно, то после любого курса нужно продолжать обучение, погружаться в детали, так как четкие алгоритмы и рекомендации хороши только для старта.

#stats

BY Статистика и R в науке и аналитике


Share with your friend now:
tgoop.com/stats_for_science/155

View MORE
Open in Telegram


Telegram News

Date: |

While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram Статистика и R в науке и аналитике
FROM American