КПД@quant_prune_distill P.278

КПД

The Unreasonable Ineffectiveness of the Deeper Layers
[Статья][Нет кода]

Метод

Идея по существу та же, что и выше, но выбрасывают блоки не по отдельности, а пачкой - т.е находим группу последовательных трансформерных блоков, которые минимально меняют представление. Критерий тот же самый - косинусная близость.

Как и в ShortenedLlama для восстановления качества сжатой модели дообучают с LoRA. И дообучение называется лечением (healing 🚑).

Результаты

Замеряют качество языкового моделирование (вместо перплексии смотрят на изменение кросс-энтропии) и MMLU/BoolQ. Рассматривают Llama-2, Mistral, Phi-2.

Кросс энтропия просаживается, но неплохо лечится после файнтьюна.

Результаты на MMLU вызывают большие сомнения 🤔 - спад качества имеет скачкообразный характер. По личным наблюдениям спад MMLU довольно монотонный, постепенный и коррелировал с ростом перплексии. Утверждается, что некоторые модели можно сжать до 40% без просадки на этом бенчмарке.

Далее смотрят на корреляцию признаков в разных блоках. Наибольшая корреляция (наименьшее расстояние) в блоках ближе к концу, согласуясь с наблюдениями из двух прошлых работ. Отсюда предлагают простое правило - пруньте блоки с конца, исключая последний, и типа хорошо работает.

👍3👀1

www.tgoop.com/quant_prune_distill/278

1.29K viewsJun 17, 2024 at 21:04

tgoop.com/quant_prune_distill/278

Create: 2024-06-17
Last Update: 2025-09-05 03:16:32

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/278

Telegram News

The Unreasonable Ineffectiveness of the Deeper Layers