DS_INTERVIEW_LIB Telegram 1038
🤔 Что делать, если редкий класс встречается менее 1% случаев и обычное увеличение выборки не помогает

Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему. В некоторых областях, таких как обнаружение мошенничества или аномалий, редкий класс по своей природе сильно отличается от обычных данных. Традиционные методы создания синтетических примеров могут не передавать сложные «аномальные» паттерны.

В таких случаях лучше использовать методы обнаружения аномалий, которые учатся распознавать нормальное поведение и отмечают отклонения. Если всё же применяете увеличение выборки, важно не создавать искусственные данные, слишком похожие на обычные, чтобы не запутать модель.

Также помогает обучение с учётом стоимости ошибок (cost-sensitive learning), которое сильнее штрафует ошибки на редком классе. Для оценки результатов полезно смотреть специальные метрики, например, количество ложных срабатываний и пропусков именно для редкого класса.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3



tgoop.com/ds_interview_lib/1038
Create:
Last Update:

🤔 Что делать, если редкий класс встречается менее 1% случаев и обычное увеличение выборки не помогает

Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему. В некоторых областях, таких как обнаружение мошенничества или аномалий, редкий класс по своей природе сильно отличается от обычных данных. Традиционные методы создания синтетических примеров могут не передавать сложные «аномальные» паттерны.

В таких случаях лучше использовать методы обнаружения аномалий, которые учатся распознавать нормальное поведение и отмечают отклонения. Если всё же применяете увеличение выборки, важно не создавать искусственные данные, слишком похожие на обычные, чтобы не запутать модель.

Также помогает обучение с учётом стоимости ошибок (cost-sensitive learning), которое сильнее штрафует ошибки на редком классе. Для оценки результатов полезно смотреть специальные метрики, например, количество ложных срабатываний и пропусков именно для редкого класса.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1038

View MORE
Open in Telegram


Telegram News

Date: |

To edit your name or bio, click the Menu icon and select “Manage Channel.” In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Users are more open to new information on workdays rather than weekends. best-secure-messaging-apps-shutterstock-1892950018.jpg Write your hashtags in the language of your target audience.
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American