DSPROGLIB Telegram 6615
🔍 How-to: как отладить модель, если метрика «просела» после дообучения

Ситуация: вы дообучили модель, но метрика резко ухудшилась. Что делать?

Вот пошаговая инструкция для анализа и устранения проблемы:

1️⃣ Сравните распределения признаков на train, valid и test

Проверьте, изменилось ли распределение важных признаков:
import seaborn as sns

for col in important_features:
sns.kdeplot(train[col], label='train')
sns.kdeplot(test[col], label='test')
plt.title(col)
plt.show()


👉 Если распределения отличаются — возможен data drift.

2️⃣ Проверьте целевую переменную

— Не изменилось ли определение таргета?
— Нет ли утечки целевой переменной (label leakage)?
— Не изменилась ли доля классов?

df['target'].value_counts(normalize=True)


3️⃣ Посмотрите на топ ошибок модели

Соберите DataFrame с предсказаниями и ошибками:
df['pred'] = model.predict(X)
df['error'] = abs(df['pred'] - df['target'])
df.sort_values('error', ascending=False).head(10)


👉 Так вы найдёте выбросы или сегменты, где модель работает плохо.

4️⃣ Используйте SHAP или Permutation Importance

Это поможет понять, какие признаки действительно влияют на предсказания после дообучения.

5️⃣ Убедитесь, что пайплайн не «сломался»

После дообучения могли потеряться:
— нормализация или масштабирование признаков;
— one-hot encoding;
— порядок признаков в модели.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/dsproglib/6615
Create:
Last Update:

🔍 How-to: как отладить модель, если метрика «просела» после дообучения

Ситуация: вы дообучили модель, но метрика резко ухудшилась. Что делать?

Вот пошаговая инструкция для анализа и устранения проблемы:

1️⃣ Сравните распределения признаков на train, valid и test

Проверьте, изменилось ли распределение важных признаков:

import seaborn as sns

for col in important_features:
sns.kdeplot(train[col], label='train')
sns.kdeplot(test[col], label='test')
plt.title(col)
plt.show()


👉 Если распределения отличаются — возможен data drift.

2️⃣ Проверьте целевую переменную

— Не изменилось ли определение таргета?
— Нет ли утечки целевой переменной (label leakage)?
— Не изменилась ли доля классов?

df['target'].value_counts(normalize=True)


3️⃣ Посмотрите на топ ошибок модели

Соберите DataFrame с предсказаниями и ошибками:
df['pred'] = model.predict(X)
df['error'] = abs(df['pred'] - df['target'])
df.sort_values('error', ascending=False).head(10)


👉 Так вы найдёте выбросы или сегменты, где модель работает плохо.

4️⃣ Используйте SHAP или Permutation Importance

Это поможет понять, какие признаки действительно влияют на предсказания после дообучения.

5️⃣ Убедитесь, что пайплайн не «сломался»

После дообучения могли потеряться:
— нормализация или масштабирование признаков;
— one-hot encoding;
— порядок признаков в модели.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6615

View MORE
Open in Telegram


Telegram News

Date: |

fire bomb molotov November 18 Dylan Hollingsworth yau ma tei The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Users are more open to new information on workdays rather than weekends.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American