🚫Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков
Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.
— Простые методы: среднее, медиана, мода. — Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).
2️⃣Удаление строк с пропусками
— Допустимо, если доля пропущенных значений очень мала.
3️⃣Использование моделей, устойчивых к пропускам
— Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.
📌Вывод
— Пропуски надо обрабатывать до масштабирования. — Лучший подход — импутация на обучении, затем масштабирование по тем же правилам. — Не смешивайте статистики между train и test — это критично для честной оценки модели.
🚫Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков
Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.
— Простые методы: среднее, медиана, мода. — Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).
2️⃣Удаление строк с пропусками
— Допустимо, если доля пропущенных значений очень мала.
3️⃣Использование моделей, устойчивых к пропускам
— Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.
📌Вывод
— Пропуски надо обрабатывать до масштабирования. — Лучший подход — импутация на обучении, затем масштабирование по тем же правилам. — Не смешивайте статистики между train и test — это критично для честной оценки модели.
A vandalised bank during the 2019 protest. File photo: May James/HKFP. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. How to create a business channel on Telegram? (Tutorial)
from us