Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib P.5965

DSPROGLIB Telegram 5965

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Что такое дистилляция знаний?

Дистилляция знаний — это метод передачи знаний от модели-учителя к модели-ученику. В первую очередь, это касается нейросетей.

❓Зачем это нужно?
Представьте, что вы можете улучшить производительность модели, при этом не расходуя огромные ресурсы на сложное обучение. Так, с помощью дистилляции знаний удалось добиться хорошего качества предсказания на ImageNet от ViT без использования дополнительных данных.

✍️ Как это делается?

Один из конкретных способов — Хинтоновская дистилляция знаний. Её суть заключается в следующем: большая заранее обученная модель-учитель выдаёт предсказания, которые служат в качестве новой разметки, а компактная модель-ученик пытается воспроизвести эти предсказания. Таким образом, ученик перенимает не только итоговые ответы, но и более глубокие представления структуры данных.

Примером применения Хинтоновской дистилляции является модель DistilBERT, которая сохраняет 97% качества модели BERT, используя при этом на 40% меньше параметров.

👍11

www.tgoop.com/dsproglib/5965

2.07K viewsJan 12 at 18:08

tgoop.com/dsproglib/5965

Create: 2025-01-12
Last Update: 2025-10-25 12:53:39

🧠 Что такое дистилляция знаний?

Дистилляция знаний — это метод передачи знаний от модели-учителя к модели-ученику. В первую очередь, это касается нейросетей.

❓Зачем это нужно?
Представьте, что вы можете улучшить производительность модели, при этом не расходуя огромные ресурсы на сложное обучение. Так, с помощью дистилляции знаний удалось добиться хорошего качества предсказания на ImageNet от ViT без использования дополнительных данных.

✍️ Как это делается?

Один из конкретных способов — Хинтоновская дистилляция знаний. Её суть заключается в следующем: большая заранее обученная модель-учитель выдаёт предсказания, которые служат в качестве новой разметки, а компактная модель-ученик пытается воспроизвести эти предсказания. Таким образом, ученик перенимает не только итоговые ответы, но и более глубокие представления структуры данных.

Примером применения Хинтоновской дистилляции является модель DistilBERT, которая сохраняет 97% качества модели BERT, используя при этом на 40% меньше параметров.

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Share with your friend now:
tgoop.com/dsproglib/5965

Open in Telegram

Telegram News

Date: 2025-10-25|

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram.
from us

Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American