🧃Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test
Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.
Правильный подход: 1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно). 2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель. 3️⃣ Оцениваем качество на валидационном фолде. 4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн. 5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.
Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.
Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы: — AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами) — ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)
🧃Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test
Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.
Правильный подход: 1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно). 2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель. 3️⃣ Оцениваем качество на валидационном фолде. 4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн. 5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.
Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.
Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы: — AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами) — ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)
As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Informative While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Channel login must contain 5-32 characters
from us