Кроме того, для данных с более сложной структурой, например для дисперсионного анализа с различными модификациями, существует порядка 30 именных критериев, различия между которыми не сразу очевидны для исследователя. Все эти методы, разработанные умными людьми в середине прошлого века, рассчитаны на минимальное число расчётов, поскольку еще не было компьютеров в общедоступности. Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.
1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).
2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.
3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.
Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?
Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению. Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов. По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.
А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах. Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.
Кроме того, для данных с более сложной структурой, например для дисперсионного анализа с различными модификациями, существует порядка 30 именных критериев, различия между которыми не сразу очевидны для исследователя. Все эти методы, разработанные умными людьми в середине прошлого века, рассчитаны на минимальное число расчётов, поскольку еще не было компьютеров в общедоступности. Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.
1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).
2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.
3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.
Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?
Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению. Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов. По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.
А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах. Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.
The Channel name and bio must be no more than 255 characters long Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Telegram channels fall into two types: According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more.
from us