Awesome DL

Tags: #distillation
Title: Distilling Knowledge from Self-SupervisedTeacher by Embedding Graph Alignment
Link: https://arxiv.org/pdf/2211.13264.pdf
Code: https://github.com/yccm/EGA

В задаче Knowledge Distillation (KD) мы хотим передать знания от большой модели учителя к маленькой модели студента. И в основном это реализуется за счет имитации студентом распределения модели учителя. Но! Что если посмотреть на задачу distillation с точки зрения структуры в данных? Мы обучили модель учителя и хотим передать студенту знания об устройстве данных. Объекты классов персидский кот и египетский кот должны быть связаны сильнее чем кошки и машины. И в этой статье авторы предложили сформулировать задачу KD как задачу выравнивания графовых структур данных: у модели студента должна быть такая же структура данных, как и у модели учителя.

Edge matching loss

Как это реализовано? Формируется батч изображений, который обрабатывается студентом и учителем. На выходе мы получаем фичи студента и учителя. Так размерности фичей могут отличаться мы дополнительно применяем линейный слой, чтобы размерности совпадали и получаем эмбеддинги. Затем мы формируем следующую матрицу для студента и для учителя: на (i,j) в этой матрицы находится корреляция Пирсона между эмбеддингами i и j объектов. Это представляет собой матрицу смежности графа. И для того, чтобы матрицы смежности были похожими (графы студента и учителя совпадали), мы добавляем L2 loss между этими матрицами.

Node matching loss

Далее, для того чтобы убедиться, что эмбеддинги студента и учителя выровнены мы добавляем лосс, который строится следующим образом. Мы составляем матрицу N_st, где на (i, j) месте корреляция Пирсона между i эмбеддингом студента и j эмбеддингом учителя. Эта матрица показывает насколько близки эмбеддинги студента и учителя. Она должна быть единичной: эмбеддинги одинаковых объектов совпадают, а между эмебеддингами различных объектов нет связи. Поэтому мы добавляем L2 loss между матрицей N_st и единичной матрицей.

Results

В качестве экспериментов они рассмотрели различные CLIP pretrained модели, которые переносили на несколько вариантов моделей студентов. Почти во всех задачах удалось выбить SOTA. (см. комментарии)

GitHub

GitHub - yccm/EGA: PyTorch Implementation on Paper [BMVC2022] Distilling Knowledge from Self-Supervised Teacher by Embedding Graph…

PyTorch Implementation on Paper [BMVC2022] Distilling Knowledge from Self-Supervised Teacher by Embedding Graph Alignment - yccm/EGA

👍5

579 viewsedited 10:06