DS_INTERVIEW_LIB Telegram 1132
Как обрабатывать пропущенные данные в задачах unsupervised learning или кластеризации, где нет целевой переменной

В unsupervised задачах (кластеризация, оценка плотности) мы не можем ориентироваться на метрики предсказания, поэтому обработка пропусков опирается на структуру данных.

Подходы:
Парные метрики расстояния: некоторые алгоритмы (например, иерархическая кластеризация) позволяют задавать метрику, которая игнорирует пропущенные признаки или учитывает их особым образом.
Импутация через снижение размерности: методы вроде PCA можно адаптировать для пропусков, заполняя отсутствующие значения с помощью низкоранговой аппроксимации (связано с матричной факторизацией).
Soft clustering / EM-подходы: смеси распределений (например, Gaussian Mixture Models) могут обрабатывать пропуски, маргинализируя по отсутствующим измерениям с использованием EM-итераций для оценки пропущенных значений.

Подводные камни:
🚩 Игнорирование пропусков в метрике расстояния может искажать расстояния, если много признаков отсутствует.
🚩 EM-подходы могут сходиться к локальным минимумам или быть нестабильными при слишком большом количестве пропусков.
🚩 В unsupervised задачах сложнее оценить корректность импутации — обычно опираются на силуэтные метрики или доменную интерпретируемость кластеров.

Если хотите не просто читать про EM и PCA, а реально попрактиковаться на данных и задачах кластеризации, есть классные курсы для Data Science-специалистов:
AI-агенты для DS-специалистов
ML для старта в Data Science

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52



tgoop.com/ds_interview_lib/1132
Create:
Last Update:

Как обрабатывать пропущенные данные в задачах unsupervised learning или кластеризации, где нет целевой переменной

В unsupervised задачах (кластеризация, оценка плотности) мы не можем ориентироваться на метрики предсказания, поэтому обработка пропусков опирается на структуру данных.

Подходы:
Парные метрики расстояния: некоторые алгоритмы (например, иерархическая кластеризация) позволяют задавать метрику, которая игнорирует пропущенные признаки или учитывает их особым образом.
Импутация через снижение размерности: методы вроде PCA можно адаптировать для пропусков, заполняя отсутствующие значения с помощью низкоранговой аппроксимации (связано с матричной факторизацией).
Soft clustering / EM-подходы: смеси распределений (например, Gaussian Mixture Models) могут обрабатывать пропуски, маргинализируя по отсутствующим измерениям с использованием EM-итераций для оценки пропущенных значений.

Подводные камни:
🚩 Игнорирование пропусков в метрике расстояния может искажать расстояния, если много признаков отсутствует.
🚩 EM-подходы могут сходиться к локальным минимумам или быть нестабильными при слишком большом количестве пропусков.
🚩 В unsupervised задачах сложнее оценить корректность импутации — обычно опираются на силуэтные метрики или доменную интерпретируемость кластеров.

Если хотите не просто читать про EM и PCA, а реально попрактиковаться на данных и задачах кластеризации, есть классные курсы для Data Science-специалистов:
AI-агенты для DS-специалистов
ML для старта в Data Science

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1132

View MORE
Open in Telegram


Telegram News

Date: |

5Telegram Channel avatar size/dimensions It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. Users are more open to new information on workdays rather than weekends. ZDNET RECOMMENDS
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American