tgoop.com/quant_prune_distill/277
Last Update:
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
[Статья][Нет кода]
Метод
Трансформерные блоки, как известно обладают аддитивными skip connections следующего вида (для простоты изложения забьем на нормализацию):x = x + attn(x)
x = x + mlp(x)
Выход mlp, attn нередко инициализируется нулем и остается небольшим по норме в процессе обучения. Следовательно, каждый блок меняет понемножку внутренне представление.
В данной работе предлагают выбрасывать те блоки, которые изменяют меньше всего внутреннее представление на некоторой выборке (примерах из PG19). В качестве расстояния используют среднее косинусное расстояние между токенами перед и после данного блока. В итоге убираются блоки с наименьшим косинусным расстоянием.
Результаты
Так как работа от китайских коллег, то замеряют качество как на Llama-2, так и на Baichuan. Для оценки качества используют стандарнтые 0-шоты, MMLU и CMMLU.
Предложенная метрика выбирает блоки ближе к концу сети (но не самые последние).
Результаты бенчмарков вызывают вопросы, утверждается, что качество на MMLU почти не просаживается вплоть до 28% sparsity, при этом перплексия на wikitext2 возрастает довольно заметно. При таких значениях обычно сеть с трудом два слова связать может, не то что решать задачи на логику). lm-eval-harness
нигде не цитируется. По всей видимости используют какой-то иной или самописный фреймворк.
Безлайны - методы структурированного прунинга в ширину, естественно, бьют. С ShortenedLLama, вышедшей чуть раньше, не сравниваются.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/277