tgoop.com/data_notes/67
Create:
Last Update:
Last Update:
Про неочевидные тонкости обучения для несбалансированных классов
В задаче классификации данные называются несбалансированными (Imbalanced Data), если в обучающей выборке доли объектов разных классов существенно различаются, также говорят, что «классы не сбалансированы». Вопрос вот какой: что делать в такой ситуации?
Такой вопрос часто задают на собеседованиях, есть блог-заметки и ютуб-ролики на эту тему, почти все они дают ложное представление о дисбалансе. Обычно рекомендуют давать такой ответ – надо сделать перебалансировку данных. Сейчас поговорим о том, что подобный ответ не учитывает теорию и практику классификации.