Warning: file_put_contents(aCache/aDaily/post/zachemmt/--): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Зачем мы такие? | Альбина Галлямова@zachemmt P.875
ZACHEMMT Telegram 875
🖥 Ошибка Таблицы 2 (Table 2 Fallacy)

🤩 Сегодня множество людей — от блогеров и журналистов до врачей и аналитиков данных — читают научные статьи и порой думают, что легко могут сами "разобраться" в данных. Они видят красивые таблицы, сравнивают эффекты разных переменных — и делают уверенные выводы. В комментариях к моему щелчку биохакерам очень много человек написало, что всё-то они сходу сами понимают и во всём разбираются!

🙌Но даже если модель построена правильно и описана ясно, понять, что именно означают все её коэффициенты, совсем непросто. Особенно если у человека нет чёткой схемы того, как переменные связаны между собой — тогда запутаться можно в два счёта...

🤩 В 2013 г. эпидемиологи Д. Вестрейх и С. Гринланд описали одну из таких типичных ошибок, ошибку Таблицы 2: когда мы берём одну статистическую модель (напр., логистическую регрессию) и смотрим на коэффициенты сразу для нескольких переменных — многие (даже специалисты!) думают, что могут их сравнивать и одинаково интерпретировать.

❗️Но на деле не все эти оценки означают одно и то же. Каждая переменная может отражать разный тип связи, в зависимости от структуры модели и от того, какие другие переменные в неё включены!

Вестрейх и Гринланд пишут, что, допустим, у нас есть модель, которая предсказывает риск инсульта в зависимости от трёх переменных: ВИЧ, курение и возраст. Она выглядит так:

logit(Инсульт) = β₀ + β₁ × ВИЧ + β₂ × Курение + β₃ × Возраст

Мы получаем такие оценки:
🔴β₁ (ВИЧ): +80%
🔴β₂ (курение): +50%
🔴β₃ (возраст): +30%

И вот что делает блогер Х: "Ну, ВИЧ увеличивает риск сильнее, чем курение. А возраст - это вообще не страшно. Смотрите: всего +30%!" Звучит, может, и логично — но это и есть ошибка Таблицы 2!

🧪 Что не так? Каждая из этих оценок — это условный эффект:
🔴β₁ показывает, как ВИЧ связан с инсультом при фиксированном уровне курения и возраста.
🔴β₂ - как курение связано с инсультом при фиксированном уровне ВИЧ и возраста.
🔴β₃ - как возраст связан с инсультом при фиксированном уровне ВИЧ и курения.

❤️ Если, например, люди с ВИЧ чаще курят, то эффект курения может частично "перепутаться" с эффектом ВИЧ. И наоборот. Это значит, что оценка β₂ отражает не всю связь курения с инсультом, а только ту её часть, которая не пересекается с ВИЧ и возрастом.

🔢Например, есть четыре человека:
- ВИЧ Курит Возраст Инсульт
А Нет Нет 40 Нет
Б Да Нет 40 Да
В Нет Да 40 Да
Г Да Да 40 Да

😼 На первый взгляд, и ВИЧ, и курение "предсказывают" инсульт.
Но если в реальных данных ВИЧ и курение часто встречаются вместе, то их эффекты в модели "перекрываются". И тогда:
🔴β₁ показывает условную связь ВИЧ с инсультом, исключая вклад курения.
🔴β₂ - только прямую часть связи курения с инсультом, исключая всё, что связано с ВИЧ.
🔴β₃ - связь возраста при прочих равных.

😂 А наш блогер Х, не зная этого, интерпретирует всё это как три независимые "причины" инсульта — и делает выводы, которых в модели на самом деле нет.

🤩 А если ещё и забыли про стресс? Допустим, в модели нет переменной "стресс", которая связана и с курением, и с инсультом. Тогда оценки для курения и возраста могут быть смещены: модель не учитывает важный фактор, и оценки становятся менее надёжными.

🐱 Иногда в модель включают ещё и произведение переменных:
logit(Инсульт) = ... + β₄ × ВИЧ × Возраст

😎 Это даёт возможность увидеть модерацию — меняется ли тут связь между ВИЧ и инсультом в разном возрасте. Но если в модели не хватает других переменных, такие взаимодействия могут быть трудны для интерпретации и давать запутанные результаты.

🕺 Ошибка Таблицы 2 — это не про плохие данные, это про неправильную интерпретацию того, что именно показывают оценки в модели. Даже если все коэффициенты получены из одной и той же модели, они могут отражать разные типы эффектов - общий, прямой или условный.

🤩 Если у неспециалиста заранее нет представления, как переменные связаны между собой, и он просто смотрит на таблицу, не вникая в структуру модели, он легко может сделать уверенные, но ошибочные выводы. И это мы только один пример разобрали...
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍43🔥10❤‍🔥3🤔322👎1🦄1



tgoop.com/zachemmt/875
Create:
Last Update:

🖥 Ошибка Таблицы 2 (Table 2 Fallacy)

🤩 Сегодня множество людей — от блогеров и журналистов до врачей и аналитиков данных — читают научные статьи и порой думают, что легко могут сами "разобраться" в данных. Они видят красивые таблицы, сравнивают эффекты разных переменных — и делают уверенные выводы. В комментариях к моему щелчку биохакерам очень много человек написало, что всё-то они сходу сами понимают и во всём разбираются!

🙌Но даже если модель построена правильно и описана ясно, понять, что именно означают все её коэффициенты, совсем непросто. Особенно если у человека нет чёткой схемы того, как переменные связаны между собой — тогда запутаться можно в два счёта...

🤩 В 2013 г. эпидемиологи Д. Вестрейх и С. Гринланд описали одну из таких типичных ошибок, ошибку Таблицы 2: когда мы берём одну статистическую модель (напр., логистическую регрессию) и смотрим на коэффициенты сразу для нескольких переменных — многие (даже специалисты!) думают, что могут их сравнивать и одинаково интерпретировать.

❗️Но на деле не все эти оценки означают одно и то же. Каждая переменная может отражать разный тип связи, в зависимости от структуры модели и от того, какие другие переменные в неё включены!

Вестрейх и Гринланд пишут, что, допустим, у нас есть модель, которая предсказывает риск инсульта в зависимости от трёх переменных: ВИЧ, курение и возраст. Она выглядит так:

logit(Инсульт) = β₀ + β₁ × ВИЧ + β₂ × Курение + β₃ × Возраст

Мы получаем такие оценки:
🔴β₁ (ВИЧ): +80%
🔴β₂ (курение): +50%
🔴β₃ (возраст): +30%

И вот что делает блогер Х: "Ну, ВИЧ увеличивает риск сильнее, чем курение. А возраст - это вообще не страшно. Смотрите: всего +30%!" Звучит, может, и логично — но это и есть ошибка Таблицы 2!

🧪 Что не так? Каждая из этих оценок — это условный эффект:
🔴β₁ показывает, как ВИЧ связан с инсультом при фиксированном уровне курения и возраста.
🔴β₂ - как курение связано с инсультом при фиксированном уровне ВИЧ и возраста.
🔴β₃ - как возраст связан с инсультом при фиксированном уровне ВИЧ и курения.

❤️ Если, например, люди с ВИЧ чаще курят, то эффект курения может частично "перепутаться" с эффектом ВИЧ. И наоборот. Это значит, что оценка β₂ отражает не всю связь курения с инсультом, а только ту её часть, которая не пересекается с ВИЧ и возрастом.

🔢Например, есть четыре человека:
- ВИЧ Курит Возраст Инсульт
А Нет Нет 40 Нет
Б Да Нет 40 Да
В Нет Да 40 Да
Г Да Да 40 Да

😼 На первый взгляд, и ВИЧ, и курение "предсказывают" инсульт.
Но если в реальных данных ВИЧ и курение часто встречаются вместе, то их эффекты в модели "перекрываются". И тогда:
🔴β₁ показывает условную связь ВИЧ с инсультом, исключая вклад курения.
🔴β₂ - только прямую часть связи курения с инсультом, исключая всё, что связано с ВИЧ.
🔴β₃ - связь возраста при прочих равных.

😂 А наш блогер Х, не зная этого, интерпретирует всё это как три независимые "причины" инсульта — и делает выводы, которых в модели на самом деле нет.

🤩 А если ещё и забыли про стресс? Допустим, в модели нет переменной "стресс", которая связана и с курением, и с инсультом. Тогда оценки для курения и возраста могут быть смещены: модель не учитывает важный фактор, и оценки становятся менее надёжными.

🐱 Иногда в модель включают ещё и произведение переменных:
logit(Инсульт) = ... + β₄ × ВИЧ × Возраст

😎 Это даёт возможность увидеть модерацию — меняется ли тут связь между ВИЧ и инсультом в разном возрасте. Но если в модели не хватает других переменных, такие взаимодействия могут быть трудны для интерпретации и давать запутанные результаты.

🕺 Ошибка Таблицы 2 — это не про плохие данные, это про неправильную интерпретацию того, что именно показывают оценки в модели. Даже если все коэффициенты получены из одной и той же модели, они могут отражать разные типы эффектов - общий, прямой или условный.

🤩 Если у неспециалиста заранее нет представления, как переменные связаны между собой, и он просто смотрит на таблицу, не вникая в структуру модели, он легко может сделать уверенные, но ошибочные выводы. И это мы только один пример разобрали...

BY Зачем мы такие? | Альбина Галлямова




Share with your friend now:
tgoop.com/zachemmt/875

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Today, we will address Telegram channels and how to use them for maximum benefit. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week.
from us


Telegram Зачем мы такие? | Альбина Галлямова
FROM American