DS_INTERVIEW_LIB Telegram 979
В чём разница между MCAR, MAR и MNAR

Это три типа механизмов пропусков в данных — и от понимания того, какой из них у вас, зависит, как правильно обрабатывать пропущенные значения.

🔍 MCAR (Missing Completely at Random)
Пропуски появляются совершенно случайно — не зависят ни от наблюдаемых, ни от ненаблюдаемых переменных.

📌 Пример: датчик случайно перестал записывать температуру из-за сбоя связи.
Что делать: удаление строк или простая импутация — допустимо, модель почти не искажается.

🔍 MAR (Missing At Random)
Пропуски зависят от других наблюдаемых признаков, но не от самого недостающего значения.

📌 Пример: доход клиента не указан, но это чаще бывает у молодых пользователей — и возраст у нас есть.
Что делать: множественная импутация (Multiple Imputation), модели, учитывающие другие признаки, работают хорошо.

🔍 MNAR (Missing Not At Random)
Пропуски зависят от самого значения, которое пропущено.
То есть в данных есть систематическая причина, скрытая внутри пропуска.


📌 Пример: люди с высоким доходом не указывают его в анкете — именно потому, что он высокий.
Что делать: здесь простые методы не помогут. Часто требуется:
Моделировать механизм пропуска явно.
Включать индикаторы пропусков как отдельные признаки.
Использовать экспертные знания или специализированные байесовские подходы.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ds_interview_lib/979
Create:
Last Update:

В чём разница между MCAR, MAR и MNAR

Это три типа механизмов пропусков в данных — и от понимания того, какой из них у вас, зависит, как правильно обрабатывать пропущенные значения.

🔍 MCAR (Missing Completely at Random)
Пропуски появляются совершенно случайно — не зависят ни от наблюдаемых, ни от ненаблюдаемых переменных.

📌 Пример: датчик случайно перестал записывать температуру из-за сбоя связи.
Что делать: удаление строк или простая импутация — допустимо, модель почти не искажается.

🔍 MAR (Missing At Random)
Пропуски зависят от других наблюдаемых признаков, но не от самого недостающего значения.

📌 Пример: доход клиента не указан, но это чаще бывает у молодых пользователей — и возраст у нас есть.
Что делать: множественная импутация (Multiple Imputation), модели, учитывающие другие признаки, работают хорошо.

🔍 MNAR (Missing Not At Random)
Пропуски зависят от самого значения, которое пропущено.
То есть в данных есть систематическая причина, скрытая внутри пропуска.


📌 Пример: люди с высоким доходом не указывают его в анкете — именно потому, что он высокий.
Что делать: здесь простые методы не помогут. Часто требуется:
Моделировать механизм пропуска явно.
Включать индикаторы пропусков как отдельные признаки.
Использовать экспертные знания или специализированные байесовские подходы.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/979

View MORE
Open in Telegram


Telegram News

Date: |

In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. Clear
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American