tgoop.com/low_theory_raw/167
Last Update:
Насколько можно верить результатам онайн-опросов?
Главное, что нужно для ответа на этот вопрос - понимать является ли выборка вероятностной, а значит применимы ли к ней законы статистики, позволяющие переносить полученные результаты на все общество.
RDD (телефонные) и адресные выборки (например, поквартирники) являются вероятностными. Онлайн выборка тоже может быть вероятностной, если она основана на RDD или адресной (то есть отбирают в панель людей с их помощью и тем, у кого нет интернета обеспечивают этот доступ). В вероятностных выборка главная ошибка репрезентации - это смещение неответов (nonresponse error, nonresponse bias), то есть мы не знаем отличаются ли ответы тех, кто согласился участвовать в опросе от тех, кто отказался.
Однако чаще всего онлайн - это не вероятностная выборка.
Их бывает два вида: выборка на основе опросной панели (panel sample - когда респонденты регистрируются в системе и регулярно получают приглашения к опросу) и поточная (river sample - когда на сайтах или в соцсетях юзерам радномно выскакивает приглашение к опросу).
Как и в случае вероятностных выборок, для не вероятностных онлайн-выборок также характерно смещение неответов. Но добавляется также и ошибка покрытия (coverage error):
- Как в опросные панели так и в поточные выборки по определению не попадают те, кто вообще не пользуются интернетом.
- В поточную выборку со значительно большей вероятностью попадают именно активные пользователи тех сервисов, где располагается приглашение к опросу. То есть более вероятно, что такие люди в принципе увидят объявление, потому что они чаще заходят. Этот же эффект характерен и для панелей - более активные пользователи чаще видят приглашения и имеют больше шансов попасть в опрос.
- Как в случае с выборками на основе опросных панелей так и в случае поточных выборок существует также эффект самоотбора. То есть скорее всего люди, которые увидев приглашение, решают пройти опрос или зарегистрироваться в панели, отличаются от тех, кто решает этого не делать.
Первые два аспекта ошибки покрытия доказано вызывают смещение, поскольку вероятность пользоваться интернетом, как и вероятность быть активным пользователем напрямую связаны с социально-демографическими характеристиками людей. Этот эффект широко показан в исследованиях цифрового неравенства (см., например, исследования Яна ван Дейка).
При этом эксперименты показывают, что влияние этих ошибок не настолько большое, что делает результаты опросов по не вероятностным выборкам непригодными.
Например, голландские исследователи сравнили результаты 18 опросов по выборкам, собранным из опросных панелей, с бенчмарком - результатом опроса по вероятностной выборке (данные 2006 года). Погрешность по вопросу удовлетворенностью жизни составила от 5,5% до 0,3%. При этом с точки зрения социально-десографических показателей погрешность достигала 17,8%. Даже корреляции одних и тех же переменных внутри разных выборок имели не только разную силу, но и разное направление. Так что некоторые данные могут быть достаточно точными (как удовлетворенность), но в целом исследователи приходят к выводу о серьезных проблемах с не вероятностными выборками.
BY плодотворные дебютные идеи
Share with your friend now:
tgoop.com/low_theory_raw/167