DS_INTERVIEW_LIB Telegram 1127
🧃 Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test

Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.

Правильный подход:
1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно).
2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель.
3️⃣ Оцениваем качество на валидационном фолде.
4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн.
5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.

Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.

Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы:
AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами)
ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1



tgoop.com/ds_interview_lib/1127
Create:
Last Update:

🧃 Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test

Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.

Правильный подход:
1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно).
2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель.
3️⃣ Оцениваем качество на валидационном фолде.
4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн.
5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.

Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.

Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы:
AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами)
ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1127

View MORE
Open in Telegram


Telegram News

Date: |

As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Informative While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Channel login must contain 5-32 characters
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American