tgoop.com/pro_python_code/772
Last Update:
В этой статье мы раскроем тему простого метода однократного кодирования переменных с использованием Pandas
Будем полагать, что большинство согласится с тем, что для начала необходима очистка данных. Проект обычно начинается с некоторого исследования и очистки, прежде чем мы сможем перейти к части моделирования.
Действительно, большая часть работы специалиста по обработке данных выполняется между очисткой и преобразованием набора данных.
Проблема, которую необходимо решить в этом кратком руководстве, заключается в том, что мы должны иметь дело с кодировкой переменных. Большинство алгоритмов машинного обучения ожидают, что для оценки чего-либо используются цифры, а не текст. В конце концов, компьютеры - это логические машины, которые полагаются на числа в качестве своего основного языка.
С учетом сказанного, когда мы получим набор данных, содержащий категориальные переменные, нам, вероятно, потребуется преобразовать его в числа, чтобы мы могли представить преобразованные данные для работы алгоритма с ними.
Обычно используется преобразование One Hot Encoding [OHE], которое берет категории и делает их двоичными значениями. Посмотрите на следующий рисунок. Первая строка — это категория A, поэтому после OHE она становится тремя столбцами, где A — положительное значение (1), а B/C — отрицательное. Следующая строка — это строка для категории B. Поскольку B сейчас положительна, она получает 1, а остальные получают 0. И это относится ко всем категориям, которые у нас есть.
@pro_python_code