tgoop.com/asisakov_channel/80
Last Update:
Как из 6000 признаков выбрать 10 наиболее нужных для модели?
Допустим, мы нагенерили много признаков с использованием техник, описанных в посте выше. Что делать дальше? Неужели нам потом надо тянуть в модель их все и собирать для них отдельные витрины? С 6к признаков такого бы не хотелось.
То есть изначально вопрос стоит вот так: «Имеем 6000 фичей, как сократить?»
1. L1 регуляризация
2. PCA
3. RFE (recursive feature elimination)
4. Feature importance (permutation, SHAP, split (for GB), entropy (for GB), mutual info) -> feature stepwise selection
5. Проверка на статистическую значимость коэффициентов при признаке
6. Проверка на взаимокорреляцию фич друг с другом и на корреляцию с таргетом
7. Проверка по VIF, PSI
Если нужно, в других постах могу раскрыть все эти вещи подробнее
#ml
BY asisakov
Share with your friend now:
tgoop.com/asisakov_channel/80