DS_INTERVIEW_LIB Telegram 1166
☹️ Какие подводные камни и edge-cases встречаются при применении PCA

➡️ Масштабирование признаков — если признаки измеряются в разных единицах и имеют сильно разные масштабы, то компоненты будут доминироваться признаками с высокой дисперсией. Обычно перед PCA данные стандартизируют (mean=0, std=1).

➡️ Линейность метода — PCA работает только с линейными зависимостями. Если данные имеют нелинейную структуру (например, лежат на многообразии), то PCA не уловит её. В таких случаях применяют kernel PCA или manifold learning.

➡️ Интерпретация компонент — хотя PCA и несупервизированный метод, часто возникает соблазн приписывать главным компонентам слишком явный смысл. На деле они могут быть трудны для интерпретации.

➡️ Мало наблюдений — если выборка меньше размерности (N < D), матрица ковариации может оказаться вырожденной. Лучше использовать SVD-реализацию PCA, которая стабильнее.

➡️ Выбор числа компонент — нет универсального правила. Иногда используют порог по объяснённой дисперсии (например, 95%), иногда руководствуются доменной экспертизой или CV на супервизированной задаче.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2



tgoop.com/ds_interview_lib/1166
Create:
Last Update:

☹️ Какие подводные камни и edge-cases встречаются при применении PCA

➡️ Масштабирование признаков — если признаки измеряются в разных единицах и имеют сильно разные масштабы, то компоненты будут доминироваться признаками с высокой дисперсией. Обычно перед PCA данные стандартизируют (mean=0, std=1).

➡️ Линейность метода — PCA работает только с линейными зависимостями. Если данные имеют нелинейную структуру (например, лежат на многообразии), то PCA не уловит её. В таких случаях применяют kernel PCA или manifold learning.

➡️ Интерпретация компонент — хотя PCA и несупервизированный метод, часто возникает соблазн приписывать главным компонентам слишком явный смысл. На деле они могут быть трудны для интерпретации.

➡️ Мало наблюдений — если выборка меньше размерности (N < D), матрица ковариации может оказаться вырожденной. Лучше использовать SVD-реализацию PCA, которая стабильнее.

➡️ Выбор числа компонент — нет универсального правила. Иногда используют порог по объяснённой дисперсии (например, 95%), иногда руководствуются доменной экспертизой или CV на супервизированной задаче.

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1166

View MORE
Open in Telegram


Telegram News

Date: |

On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Write your hashtags in the language of your target audience. How to Create a Private or Public Channel on Telegram? Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name.
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American