➖ Как обрабатывать пропущенные данные в задачах unsupervised learning или кластеризации, где нет целевой переменнойВ unsupervised задачах (кластеризация, оценка плотности) мы не можем ориентироваться на метрики предсказания, поэтому обработка пропусков опирается на структуру данных.
Подходы:➖ Парные метрики расстояния: некоторые алгоритмы (например, иерархическая кластеризация) позволяют задавать метрику, которая игнорирует пропущенные признаки или учитывает их особым образом.
➖ Импутация через снижение размерности: методы вроде PCA можно адаптировать для пропусков, заполняя отсутствующие значения с помощью низкоранговой аппроксимации (связано с матричной факторизацией).
➖ Soft clustering / EM-подходы: смеси распределений (например, Gaussian Mixture Models) могут обрабатывать пропуски, маргинализируя по отсутствующим измерениям с использованием EM-итераций для оценки пропущенных значений.
Подводные камни:🚩 Игнорирование пропусков в метрике расстояния может искажать расстояния, если много признаков отсутствует.
🚩 EM-подходы могут сходиться к локальным минимумам или быть нестабильными при слишком большом количестве пропусков.
🚩 В unsupervised задачах сложнее оценить корректность импутации — обычно опираются на силуэтные метрики или доменную интерпретируемость кластеров.
Если хотите не просто читать про EM и PCA, а реально попрактиковаться на данных и задачах кластеризации, есть классные курсы для Data Science-специалистов:
—
AI-агенты для DS-специалистов—
ML для старта в Data Science🐸 Библиотека собеса по Data Science