tgoop.com/dsproglib/5976
Last Update:
🔢 7 способов кодирования категориальных данных
При работе с категориальными данными в машинном обучении, выбор способа их преобразования имеет решающее значение.
1. One-Hot Encoding
Каждая категория превращается в отдельный бинарный столбец.
Пример: Цвета → Зеленый: [1, 0, 0], Красный: [0, 1, 0].
2. Dummy Encoding
Как One-Hot, но один столбец исключается, чтобы избежать дублирования информации.
3. Effect Encoding
Категории кодируются бинарно, но ряды с нулями заменяются на -1 для создания баланса.
4. Label Encoding
Каждой категории присваивается уникальное числовое значение.
Пример: Зеленый = 1, Красный = 2, Черный = 3.
5. Ordinal Encoding
Порядковое кодирование, где категории ранжируются по важности.
Пример: XS = 1, S = 2, M = 3, L = 4.
6. Count Encoding
Категории заменяются частотой их встречаемости в данных.
7. Binary Encoding
Категории преобразуются в бинарный код.
Пример: Зеленый = 01, Красный = 10.
Какой метод вы используете чаще всего? 👇
#Encoding
BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Share with your friend now:
tgoop.com/dsproglib/5976