DS_INTERVIEW_LIB Telegram 980
🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ds_interview_lib/980
Create:
Last Update:

🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/980

View MORE
Open in Telegram


Telegram News

Date: |

A vandalised bank during the 2019 protest. File photo: May James/HKFP. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. How to create a business channel on Telegram? (Tutorial)
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American