DS_INTERVIEW_LIB Telegram 1020
👀 Почему one-hot encoding может быть неэффективен при большом количестве категорией

One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:

📍Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.
📍Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.
📍Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;
📍Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;
📍Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ds_interview_lib/1020
Create:
Last Update:

👀 Почему one-hot encoding может быть неэффективен при большом количестве категорией

One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:

📍Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.
📍Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.
📍Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;
📍Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;
📍Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1020

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Concise Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.”
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American