ARTIFICIAL_STUPID Telegram 316
​​#statistics

Что такое гетероскедастичность ошибок и как с ней борются?

Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели.

Пример на изображении к посту. Можно заметить, что при изменении некоторого признака (ось X) меняется и разброс ошибок (ось Y).

И как же это влияет на оценки коэффициентов Метода Наименьших Квадратов (МНК)?

1. МНК-оценки коэффициентов остаются несмещенными;
2. МНК-оценки перестают быть эффективными (то есть не имеют наименьшую дисперсию в своем классе);
3. Стандартные ошибки коэффициентов, рассчитанные по формуле для случая гомоскедастичности, оказываются смещенными и несостоятельными.

То есть, сами полученные значения оценок остаются примерно такими же. А вот уже полученные доверительные интервалы и выводы о значимости оценок коэффициентов получаются некорректными.

Что же делать?

1. Делать поправку при расчете ошибок. То есть, использовать т.н. состоятельные в условиях гетероскедастичности стандартные ошибки (heteroskedasticity consistent (heteroskedasticity robust) standard errors). Обычно, эти поправки есть практически в любом пакете статистического анализа и имеют обозначения HC0, HC1, HC2, HC3 (пример из statsmodels);
2. Использовать взвешенный метод наименьших квадратов (weighted least squares, WLS) (опять же, пример).

И какая из оценок лучше?

В общем случае, можно было бы сказать, что лучше использовать WLS. Но очень важное для этого предположение состоит в том, что для этого у нас должно быть верно специфицированно уравнение для дисперсии случайной величины (то есть, мы знаем, как в реальности ведет себя наша гетероскедастичность). А это не так просто, как кажется на первый взгляд.

Плюс, обычно при большом объеме данных даже обычный МНК дает вполне удовлетворительные результаты. Потому, чаще всего применяют обычный МНК с робастными стандартными ошибками (проще всего включать их автоматом, т.к. при отсутствии гетероскедастичности поправка не будет вносить сильных изменений и мы будем получать результаты, очень похожие на оценки при использовании формулы для случая гомоскедастичности).
👍10



tgoop.com/artificial_stupid/316
Create:
Last Update:

​​#statistics

Что такое гетероскедастичность ошибок и как с ней борются?

Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели.

Пример на изображении к посту. Можно заметить, что при изменении некоторого признака (ось X) меняется и разброс ошибок (ось Y).

И как же это влияет на оценки коэффициентов Метода Наименьших Квадратов (МНК)?

1. МНК-оценки коэффициентов остаются несмещенными;
2. МНК-оценки перестают быть эффективными (то есть не имеют наименьшую дисперсию в своем классе);
3. Стандартные ошибки коэффициентов, рассчитанные по формуле для случая гомоскедастичности, оказываются смещенными и несостоятельными.

То есть, сами полученные значения оценок остаются примерно такими же. А вот уже полученные доверительные интервалы и выводы о значимости оценок коэффициентов получаются некорректными.

Что же делать?

1. Делать поправку при расчете ошибок. То есть, использовать т.н. состоятельные в условиях гетероскедастичности стандартные ошибки (heteroskedasticity consistent (heteroskedasticity robust) standard errors). Обычно, эти поправки есть практически в любом пакете статистического анализа и имеют обозначения HC0, HC1, HC2, HC3 (пример из statsmodels);
2. Использовать взвешенный метод наименьших квадратов (weighted least squares, WLS) (опять же, пример).

И какая из оценок лучше?

В общем случае, можно было бы сказать, что лучше использовать WLS. Но очень важное для этого предположение состоит в том, что для этого у нас должно быть верно специфицированно уравнение для дисперсии случайной величины (то есть, мы знаем, как в реальности ведет себя наша гетероскедастичность). А это не так просто, как кажется на первый взгляд.

Плюс, обычно при большом объеме данных даже обычный МНК дает вполне удовлетворительные результаты. Потому, чаще всего применяют обычный МНК с робастными стандартными ошибками (проще всего включать их автоматом, т.к. при отсутствии гетероскедастичности поправка не будет вносить сильных изменений и мы будем получать результаты, очень похожие на оценки при использовании формулы для случая гомоскедастичности).

BY Artificial stupidity




Share with your friend now:
tgoop.com/artificial_stupid/316

View MORE
Open in Telegram


Telegram News

Date: |

Unlimited number of subscribers per channel Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Select “New Channel” A vandalised bank during the 2019 protest. File photo: May James/HKFP. To view your bio, click the Menu icon and select “View channel info.”
from us


Telegram Artificial stupidity
FROM American