tgoop.com/dsproglib/6615
Create:
Last Update:
Last Update:
🔍 How-to: как отладить модель, если метрика «просела» после дообучения
Ситуация: вы дообучили модель, но метрика резко ухудшилась. Что делать?
Вот пошаговая инструкция для анализа и устранения проблемы:
Проверьте, изменилось ли распределение важных признаков:
import seaborn as sns
for col in important_features:
sns.kdeplot(train[col], label='train')
sns.kdeplot(test[col], label='test')
plt.title(col)
plt.show()
👉 Если распределения отличаются — возможен data drift.
— Не изменилось ли определение таргета?
— Нет ли утечки целевой переменной (label leakage)?
— Не изменилась ли доля классов?
df['target'].value_counts(normalize=True)
Соберите DataFrame с предсказаниями и ошибками:
df['pred'] = model.predict(X)
df['error'] = abs(df['pred'] - df['target'])
df.sort_values('error', ascending=False).head(10)
👉 Так вы найдёте выбросы или сегменты, где модель работает плохо.
Это поможет понять, какие признаки действительно влияют на предсказания после дообучения.
После дообучения могли потеряться:
— нормализация или масштабирование признаков;
— one-hot encoding;
— порядок признаков в модели.
Библиотека дата-сайентиста #буст