❔Люди умеют предсказывать будущее?👀Меня несколько раз просили разобрать историю с экспериментом Бема. Давайте рассмотрим, что в нём было на самом деле.
В 2011 г. в Journal of Personality and Social Psychology появилась сенсационная
статья. Автор — профессор Корнеллского университета Дэррил Бем — утверждал, что люди могут предсказывать будущее. Не метафорически, не интуитивно, а буквально. В серии из 9 экспериментов с разными парадигмами с общим числом участников более 1,000 он якобы продемонстрировал ретроактивное влияние будущих событий на поведение в настоящем.
🦕Сложно поверить, но почти все эти эксперименты давали статистически значимые результаты. Обнаруженные эффекты были стабильные,
в среднем d ≈ 0.22. Убедительно, не правда ли? На самом деле — нет.
🦕Почти сразу в журнал пришёл ответ от
Wagenmakers и соавт., где те пересчитали результаты Бема и никаких статистически надёжных свидетельств в пользу предвидения не нашли. Репликации по горячим следам также их не обнаружили (напр.,
Galak et al., Ritchie et al.).🦕В чём проблема оригинальной статьи?
⭕️Не было пререгистрации;
⭕️Не сообщались все исключённые данные;
⭕️Описание процедуры сбора данных оставалось слишком расплывчатым;
⭕️Использовались односторонние
p-значения;
⭕️Позже выяснилось, что эксперименты были собраны из кусков (напр., объединялись разные выборки, но описывались они как единый эксперимент).
Бем, не сдаваясь, в 2015 г. опубликовал совместно с коллегами
метаанализ: 90 исследований, около 12,000 участников, и, казалось бы, снова получил значимый эффект
d ≈ 0.21.
🦕Но критики и здесь указали на несколько серьёзных проблем:🟣Почти треть всех исследований — сам Бем;
🟣Многие включённые работы не прошли независимый аудит;
🟣Признаки publication bias;
🟣В выборке множество мелких и маломощных экспериментов, чувствительных к случайным колебаниям;
🟣После учёта этих помех через методы вроде
p-uniform или PET-PEESE эффект исчезает.
Таким образом, успех в мета-анализе слишком маловероятен без скрытого отсеивания неудачных попыток.
🐯И действительно, если взять его оригинальные данные, то в каждом эксперименте эффект был сильнее всего на первых 10-20 участниках, а затем исчезал. То есть Бем действовал так:
🔴Часто сначала собирались пилотные данные;
🔴Если первые результаты выглядели "многообещающе", сбор продолжался;
🔴Если нет — исследование менялось или забрасывалось;
🔴 Некоторые эксперименты были склеены из разных выборок, собранных в разное время.
😐В 2023 г. команда
Kekecs и соавт., включая коллег из НИУ ВШЭ, провела предельно строгую репликацию: никаких следов эффекта. И это был не столько тест Бема, сколько проверка самого научного метода. Результат? Метод работает.
Проблема — не в статистике, а в организации исследований, которая раньше позволяла отдельным авторам, вроде Бема, использовать лазейки.
🦕Сейчас разрабатываются инструменты, делающие науку более прозрачной на каждом этапе:🩷Born-open data — выкладка данных в реальном времени
🩷Автоматические real-time отчёты
🩷Пререгистрация и формат Registered Reports
🩷Аудит экспертов (согласование протокола между оппонентами)
🩷Журналы лабораторий, видеофиксация, контроль версий
🩷Внешний аудит целостности данных
История с экспериментами Бема — не пример краха научного метода, а пример того, как он работает, когда его правильно применяют. Да, в 2011 г. в престижном журнале опубликовали статью с сенсационным заявлением. Да, она выглядела убедительно.
🦕Но что произошло дальше?🔠Независимые исследователи перепроверили расчёты.
🔠Другие лаборатории провели репликации.
🔠Статистики показали, как эффект исчезает при учёте смещений.
🔠Повторный анализ исходных данных выявил системные нарушения процедуры.
🔠Строгая проверка с прозрачным протоколом показала: никакого эффекта нет.