🌀Почему в некоторых случаях полезно обучать модель на данных, полученных… от другой модели
Обучение на предсказаниях другой модели — это основа подхода под названием knowledge distillation (дистилляция знаний). Идея в том, что сложная, тяжёлая модель (например, глубокая нейросеть) может содержать более «мягкую» и богатую информацию о структуре задачи, чем просто метки «0» и «1».
Маленькая модель, обучающаяся не на оригинальных метках, а на вероятностных предсказаниях большой модели, может: ➡️лучше улавливать обобщённые закономерности, ➡️достигать качества, близкого к исходной модели, ➡️быть гораздо быстрее и легче в продакшене.
Это особенно полезно, когда требуется deploy в ограниченной среде (например, на мобильных устройствах), но не хочется терять в качестве. Получается, что модель может «учиться у другой модели», как ученик у учителя — и это работает.
🌀Почему в некоторых случаях полезно обучать модель на данных, полученных… от другой модели
Обучение на предсказаниях другой модели — это основа подхода под названием knowledge distillation (дистилляция знаний). Идея в том, что сложная, тяжёлая модель (например, глубокая нейросеть) может содержать более «мягкую» и богатую информацию о структуре задачи, чем просто метки «0» и «1».
Маленькая модель, обучающаяся не на оригинальных метках, а на вероятностных предсказаниях большой модели, может: ➡️лучше улавливать обобщённые закономерности, ➡️достигать качества, близкого к исходной модели, ➡️быть гораздо быстрее и легче в продакшене.
Это особенно полезно, когда требуется deploy в ограниченной среде (например, на мобильных устройствах), но не хочется терять в качестве. Получается, что модель может «учиться у другой модели», как ученик у учителя — и это работает.
Some Telegram Channels content management tips ZDNET RECOMMENDS The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us