😎 Почему иногда используют «обманчиво плохую» loss-функцию на этапе обучения
Иногда для обучения выбирают лосс-функцию, которая не совпадает с целевой метрикой — и даже, на первый взгляд, плохо её отражает.
Это делается не по ошибке, а потому что: — Целевая метрика негладкая или недифференцируемая, например, F1-score, Precision\@K, Accuracy. Их нельзя напрямую оптимизировать с помощью градиентного спуска. — Взамен используют surrogate loss — «замещающую» функцию, которую можно эффективно минимизировать. Например: ✔️log-loss для классификации, ✔️hinge loss для SVM, ✔️MSE вместо MAE в регрессии.
Иногда surrogate loss вообще не похож на целевую метрику — и всё равно работает. Это парадокс: модель учится не по той метрике, которую мы хотим улучшить, но всё равно её улучшает.
Такой выбор — компромисс между математической удобством и практической целью. И это одна из причин, почему хорошие метрики ≠ хорошие loss-функции, и наоборот.
😎 Почему иногда используют «обманчиво плохую» loss-функцию на этапе обучения
Иногда для обучения выбирают лосс-функцию, которая не совпадает с целевой метрикой — и даже, на первый взгляд, плохо её отражает.
Это делается не по ошибке, а потому что: — Целевая метрика негладкая или недифференцируемая, например, F1-score, Precision\@K, Accuracy. Их нельзя напрямую оптимизировать с помощью градиентного спуска. — Взамен используют surrogate loss — «замещающую» функцию, которую можно эффективно минимизировать. Например: ✔️log-loss для классификации, ✔️hinge loss для SVM, ✔️MSE вместо MAE в регрессии.
Иногда surrogate loss вообще не похож на целевую метрику — и всё равно работает. Это парадокс: модель учится не по той метрике, которую мы хотим улучшить, но всё равно её улучшает.
Такой выбор — компромисс между математической удобством и практической целью. И это одна из причин, почему хорошие метрики ≠ хорошие loss-функции, и наоборот.
When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Channel login must contain 5-32 characters How to Create a Private or Public Channel on Telegram? Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression."
from us