tgoop.com/quant_prune_distill/99
Last Update:
Эксперименты
Качество работы метода проверяется на CIFAR-10, ImageNet-1k, ADE20k, MS COCO и инструкциях из Alpaca.
Предложенный метод заметно превосходит альтернативы и при этом оказывается обобщаемым на другие архитектуры.
Оптимальная доля маскируемых патчей изображения - 25%, отбор с помощью GradCam лучше случайного выбора. Здесь однако, возникает вопрос, насколько полезно такое сжатие - так как количество операций при прогонке что исходной, что маскированной картинки для большинства архитектур - одна и та же. Кроме того, за счет уменьшения количества цветов, прочих алгоритмов сжатия, можно добиться более сильного сжатия.
Оптимальное число корзин в районе 10.
Для задач из компьютерного зрения без просадки в качестве удается сжать датасет на 20%, 40%. It aint much but it’s honest work.
Датасет с инструкциями же удается сжать куда лучше (80-98%). Вероятно, потому, что рассмотренные задачи для компьютерного зрения требуют существенной перестройки модели, а instruction tuning - небольшая корректировка весов модели под желаемый паттерн поведения. Кроме того, ранее было показано, что удачно выбранное подмножество из ALPACA-set лучше всего ALPACA.
Кроме того, метод работает за разумное время, от силы час (но непонятно, для какого датасета).
Итог
Задача полезная и востребованная. Однако сам метод не имеет каких-то строгих теоретических гарантий и имеет ограниченные возможности по сжатию датасетов, хоть и превосходит альтернативы. Было бы интересно прогнать на FlanV2, там как раз больше миллиона инструкций. И для генеративных моделей.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/99