🔍 How to: выбрать важные признаки и избежать переобучения

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1️⃣

Использование Recursive Feature Elimination (RFE)

Метод RFE помогает выбрать наиболее значимые признаки, исключая менее важные:

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
rfe = RFE(model, n_features_to_select=5)
X_rfe = rfe.fit_transform(X, y)

2️⃣

L1-регуляризация (Lasso)

L1-регуляризация помогает «занулять» незначительные признаки, что эффективно для отбора:

from sklearn.linear_model import Lasso

model = Lasso(alpha=0.1)
model.fit(X, y)

📌 Рекомендация: подбирайте оптимальное значение alpha с использованием кросс-валидации, например, через GridSearchCV.

3️⃣

Random Forest для выбора признаков

Алгоритм Random Forest вычисляет важность признаков, что позволяет отбирать наиболее значимые:

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_

4️⃣

Регуляризация с Ridge (L2-регуляризация)

L2-регуляризация помогает уменьшить влияние менее значимых признаков, но не исключает их полностью:

from sklearn.linear_model import Ridge

model = Ridge(alpha=0.1)
model.fit(X, y)

5️⃣

Анализ важности признаков с помощью деревьев решений

Если вы используете алгоритмы на основе деревьев решений, важно учитывать их внутреннюю важность признаков:

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X, y)
importances = model.feature_importances_

📌 Рекомендация: рассмотрите возможность комбинированного использования методов Lasso и RFE для более агрессивного отбора признаков, что может быть полезно, если ваш набор данных содержит множество признаков.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3

www.tgoop.com/dsproglib/6420

2.04K viewsMay 6 at 07:27

tgoop.com/dsproglib/6420

Create: 2025-05-06
Last Update: 2025-07-24 05:30:14

🔍 How to: выбрать важные признаки и избежать переобучения

Выбор признаков и регуляризация — ключевые методы для повышения эффективности модели и предотвращения переобучения. Вот как это можно реализовать:

1️⃣ Использование Recursive Feature Elimination (RFE)

Метод RFE помогает выбрать наиболее значимые признаки, исключая менее важные:

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
rfe = RFE(model, n_features_to_select=5)
X_rfe = rfe.fit_transform(X, y)

2️⃣

from sklearn.linear_model import Lasso

model = Lasso(alpha=0.1)
model.fit(X, y)

3️⃣

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X, y)
importances = model.feature_importances_

4️⃣

from sklearn.linear_model import Ridge

model = Ridge(alpha=0.1)
model.fit(X, y)

5️⃣

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X, y)
importances = model.feature_importances_

Telegram News

🔍 How to: выбрать важные признаки и избежать переобучения