tgoop.com/quant_prune_distill/278
Last Update:
The Unreasonable Ineffectiveness of the Deeper Layers
[Статья][Нет кода]
Метод
Идея по существу та же, что и выше, но выбрасывают блоки не по отдельности, а пачкой - т.е находим группу последовательных трансформерных блоков, которые минимально меняют представление. Критерий тот же самый - косинусная близость.
Как и в ShortenedLlama для восстановления качества сжатой модели дообучают с LoRA. И дообучение называется лечением (healing 🚑).
Результаты
Замеряют качество языкового моделирование (вместо перплексии смотрят на изменение кросс-энтропии) и MMLU/BoolQ. Рассматривают Llama-2, Mistral, Phi-2.
Кросс энтропия просаживается, но неплохо лечится после файнтьюна.
Результаты на MMLU вызывают большие сомнения 🤔 - спад качества имеет скачкообразный характер. По личным наблюдениям спад MMLU довольно монотонный, постепенный и коррелировал с ростом перплексии. Утверждается, что некоторые модели можно сжать до 40% без просадки на этом бенчмарке.
Далее смотрят на корреляцию признаков в разных блоках. Наибольшая корреляция (наименьшее расстояние) в блоках ближе к концу, согласуясь с наблюдениями из двух прошлых работ. Отсюда предлагают простое правило - пруньте блоки с конца, исключая последний, и типа хорошо работает.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/278