Notice: file_put_contents(): Write of 7114 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
Warning: file_put_contents(): Only 12288 of 19402 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50 Статистика и R в науке и аналитике@stats_for_science P.6
Не секрет, что во время анализа данных часто наблюдаются аномальные значения, выбросы (аутлайеры, outliers), значительно отличающиеся от всех остальных значений в выборке. Выбросы нарушают нормальность распределения и уменьшают мощность параметрических критериев. Выбросы - это значения, отличающиеся больше чем на медиану+1.5 межквартильных размаха (на картинке из следующего поста показано)
Но можно ли просто выкинуть значения, которые не нравятся, для соответствия требованиям о нормальности распределения, а то и вовсе для получения заветного p < 0.05 при сравнении групп? Ответ: НЕТ, но в некоторых случаях можно, в зависимости от природы этого выброса. К ситуации, когда удалить выброс можно, относятся например, опечатки, которые приводят к физически невозможным значениям, к примеру уровень глюкозы в крови 55, здесь явно пропущен десятичный разделитель, так как человек с таким уровнем сахара уже скорее всего мертв. Если ошибку исправить возможно, то стоит исправить, если же неясно, какое должно быть значение в оригинале, то лучше исключить это наблюдение из анализа. Может быть ситуация, когда наблюдаемое измерение не соответствует исследуемой гипотезе, например, обнаружилось, что часть мышей в контрольной группе оказались стрессированы каким-то фактором и, следовательно, не могут являться корректным контролем. В таком случае допускается исключить эти образцы, однако быть готовым к обоснованию почему это сделано. Обратите внимание, что это должно происходить еще на этапе построения описательных статистик, то есть до проведения сравнения групп и желания подогнать пи вэлью, чтобы найти различия.
В большинстве остальных случаев выбросы могут отражать реальную биологическую вариабельность наших данных и их исключение приведет к занижению дисперсий и нарушению корректности статистического анализа. В ситуации, если вы уверены, что различия между выборками должны быть, но выбросы не позволяют их найти, рекомендуется увеличить объем выборки, если различия действительно есть, то на большей выборке их, вероятно, удастся найти.
Также рекомендую использовать соответствующие распределениям статистические критерии, например в случае верности гипотезы о нормальности распределения и гомогенности дисперсий можно использовать Т-критерий Стьюдента. В случае нарушения этих предположений (какого-то из) рекомендуется использовать непараметрические критерии, такие как тест Манна-Уитни. Про проверку на нормальность и гомогенность дисперсий (гомоскедастичность) будет отдельный пост. Также планирую добавить гайд по выбору критериев.
Не секрет, что во время анализа данных часто наблюдаются аномальные значения, выбросы (аутлайеры, outliers), значительно отличающиеся от всех остальных значений в выборке. Выбросы нарушают нормальность распределения и уменьшают мощность параметрических критериев. Выбросы - это значения, отличающиеся больше чем на медиану+1.5 межквартильных размаха (на картинке из следующего поста показано)
Но можно ли просто выкинуть значения, которые не нравятся, для соответствия требованиям о нормальности распределения, а то и вовсе для получения заветного p < 0.05 при сравнении групп? Ответ: НЕТ, но в некоторых случаях можно, в зависимости от природы этого выброса. К ситуации, когда удалить выброс можно, относятся например, опечатки, которые приводят к физически невозможным значениям, к примеру уровень глюкозы в крови 55, здесь явно пропущен десятичный разделитель, так как человек с таким уровнем сахара уже скорее всего мертв. Если ошибку исправить возможно, то стоит исправить, если же неясно, какое должно быть значение в оригинале, то лучше исключить это наблюдение из анализа. Может быть ситуация, когда наблюдаемое измерение не соответствует исследуемой гипотезе, например, обнаружилось, что часть мышей в контрольной группе оказались стрессированы каким-то фактором и, следовательно, не могут являться корректным контролем. В таком случае допускается исключить эти образцы, однако быть готовым к обоснованию почему это сделано. Обратите внимание, что это должно происходить еще на этапе построения описательных статистик, то есть до проведения сравнения групп и желания подогнать пи вэлью, чтобы найти различия.
В большинстве остальных случаев выбросы могут отражать реальную биологическую вариабельность наших данных и их исключение приведет к занижению дисперсий и нарушению корректности статистического анализа. В ситуации, если вы уверены, что различия между выборками должны быть, но выбросы не позволяют их найти, рекомендуется увеличить объем выборки, если различия действительно есть, то на большей выборке их, вероятно, удастся найти.
Также рекомендую использовать соответствующие распределениям статистические критерии, например в случае верности гипотезы о нормальности распределения и гомогенности дисперсий можно использовать Т-критерий Стьюдента. В случае нарушения этих предположений (какого-то из) рекомендуется использовать непараметрические критерии, такие как тест Манна-Уитни. Про проверку на нормальность и гомогенность дисперсий (гомоскедастичность) будет отдельный пост. Также планирую добавить гайд по выбору критериев.
5Telegram Channel avatar size/dimensions 1What is Telegram Channels? The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. With the “Bear Market Screaming Therapy Group,” we’ve now transcended language.
from us