😎 Почему иногда используют «обманчиво плохую» loss-функцию на этапе обучения
Иногда для обучения выбирают лосс-функцию, которая не совпадает с целевой метрикой — и даже, на первый взгляд, плохо её отражает.
Это делается не по ошибке, а потому что: — Целевая метрика негладкая или недифференцируемая, например, F1-score, Precision\@K, Accuracy. Их нельзя напрямую оптимизировать с помощью градиентного спуска. — Взамен используют surrogate loss — «замещающую» функцию, которую можно эффективно минимизировать. Например: ✔️log-loss для классификации, ✔️hinge loss для SVM, ✔️MSE вместо MAE в регрессии.
Иногда surrogate loss вообще не похож на целевую метрику — и всё равно работает. Это парадокс: модель учится не по той метрике, которую мы хотим улучшить, но всё равно её улучшает.
Такой выбор — компромисс между математической удобством и практической целью. И это одна из причин, почему хорошие метрики ≠ хорошие loss-функции, и наоборот.
😎 Почему иногда используют «обманчиво плохую» loss-функцию на этапе обучения
Иногда для обучения выбирают лосс-функцию, которая не совпадает с целевой метрикой — и даже, на первый взгляд, плохо её отражает.
Это делается не по ошибке, а потому что: — Целевая метрика негладкая или недифференцируемая, например, F1-score, Precision\@K, Accuracy. Их нельзя напрямую оптимизировать с помощью градиентного спуска. — Взамен используют surrogate loss — «замещающую» функцию, которую можно эффективно минимизировать. Например: ✔️log-loss для классификации, ✔️hinge loss для SVM, ✔️MSE вместо MAE в регрессии.
Иногда surrogate loss вообще не похож на целевую метрику — и всё равно работает. Это парадокс: модель учится не по той метрике, которую мы хотим улучшить, но всё равно её улучшает.
Такой выбор — компромисс между математической удобством и практической целью. И это одна из причин, почему хорошие метрики ≠ хорошие loss-функции, и наоборот.
For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. How to create a business channel on Telegram? (Tutorial) Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. 4How to customize a Telegram channel?
from us