КПД@quant_prune_distill P.99

КПД

Эксперименты

Качество работы метода проверяется на CIFAR-10, ImageNet-1k, ADE20k, MS COCO и инструкциях из Alpaca.

Предложенный метод заметно превосходит альтернативы и при этом оказывается обобщаемым на другие архитектуры.

Оптимальная доля маскируемых патчей изображения - 25%, отбор с помощью GradCam лучше случайного выбора. Здесь однако, возникает вопрос, насколько полезно такое сжатие - так как количество операций при прогонке что исходной, что маскированной картинки для большинства архитектур - одна и та же. Кроме того, за счет уменьшения количества цветов, прочих алгоритмов сжатия, можно добиться более сильного сжатия.

Оптимальное число корзин в районе 10.

Для задач из компьютерного зрения без просадки в качестве удается сжать датасет на 20%, 40%. It aint much but it’s honest work.

Датасет с инструкциями же удается сжать куда лучше (80-98%). Вероятно, потому, что рассмотренные задачи для компьютерного зрения требуют существенной перестройки модели, а instruction tuning - небольшая корректировка весов модели под желаемый паттерн поведения. Кроме того, ранее было показано, что удачно выбранное подмножество из ALPACA-set лучше всего ALPACA.

Кроме того, метод работает за разумное время, от силы час (но непонятно, для какого датасета).

Итог

Задача полезная и востребованная. Однако сам метод не имеет каких-то строгих теоретических гарантий и имеет ограниченные возможности по сжатию датасетов, хоть и превосходит альтернативы. Было бы интересно прогнать на FlanV2, там как раз больше миллиона инструкций. И для генеративных моделей.

www.tgoop.com/quant_prune_distill/99

232 viewsedited Aug 27, 2023 at 18:48

tgoop.com/quant_prune_distill/99

Create: 2023-08-27
Last Update: 2025-08-27 23:53:15

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/99

Telegram News

Эксперименты