tgoop.com/artificial_stupid/316
Last Update:
#statistics
Что такое гетероскедастичность ошибок и как с ней борются?
Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели.
Пример на изображении к посту. Можно заметить, что при изменении некоторого признака (ось X) меняется и разброс ошибок (ось Y).
И как же это влияет на оценки коэффициентов Метода Наименьших Квадратов (МНК)?
1. МНК-оценки коэффициентов остаются несмещенными;
2. МНК-оценки перестают быть эффективными (то есть не имеют наименьшую дисперсию в своем классе);
3. Стандартные ошибки коэффициентов, рассчитанные по формуле для случая гомоскедастичности, оказываются смещенными и несостоятельными.
То есть, сами полученные значения оценок остаются примерно такими же. А вот уже полученные доверительные интервалы и выводы о значимости оценок коэффициентов получаются некорректными.
Что же делать?
1. Делать поправку при расчете ошибок. То есть, использовать т.н. состоятельные в условиях гетероскедастичности стандартные ошибки (heteroskedasticity consistent (heteroskedasticity robust) standard errors). Обычно, эти поправки есть практически в любом пакете статистического анализа и имеют обозначения HC0, HC1, HC2, HC3 (пример из statsmodels);
2. Использовать взвешенный метод наименьших квадратов (weighted least squares, WLS) (опять же, пример).
И какая из оценок лучше?
В общем случае, можно было бы сказать, что лучше использовать WLS. Но очень важное для этого предположение состоит в том, что для этого у нас должно быть верно специфицированно уравнение для дисперсии случайной величины (то есть, мы знаем, как в реальности ведет себя наша гетероскедастичность). А это не так просто, как кажется на первый взгляд.
Плюс, обычно при большом объеме данных даже обычный МНК дает вполне удовлетворительные результаты. Потому, чаще всего применяют обычный МНК с робастными стандартными ошибками (проще всего включать их автоматом, т.к. при отсутствии гетероскедастичности поправка не будет вносить сильных изменений и мы будем получать результаты, очень похожие на оценки при использовании формулы для случая гомоскедастичности).
BY Artificial stupidity

Share with your friend now:
tgoop.com/artificial_stupid/316