КПД@quant_prune_distill P.277

КПД

x = x + attn(x)
x = x + mlp(x)

Выход mlp, attn нередко инициализируется нулем и остается небольшим по норме в процессе обучения. Следовательно, каждый блок меняет понемножку внутренне представление.

В данной работе предлагают выбрасывать те блоки, которые изменяют меньше всего внутреннее представление на некоторой выборке (примерах из PG19). В качестве расстояния используют среднее косинусное расстояние между токенами перед и после данного блока. В итоге убираются блоки с наименьшим косинусным расстоянием.

Результаты

Так как работа от китайских коллег, то замеряют качество как на Llama-2, так и на Baichuan. Для оценки качества используют стандарнтые 0-шоты, MMLU и CMMLU.

Предложенная метрика выбирает блоки ближе к концу сети (но не самые последние).

Результаты бенчмарков вызывают вопросы, утверждается, что качество на MMLU почти не просаживается вплоть до 28% sparsity, при этом перплексия на wikitext2 возрастает довольно заметно. При таких значениях обычно сеть с трудом два слова связать может, не то что решать задачи на логику). lm-eval-harness нигде не цитируется. По всей видимости используют какой-то иной или самописный фреймворк.

Безлайны - методы структурированного прунинга в ширину, естественно, бьют. С ShortenedLLama, вышедшей чуть раньше, не сравниваются.

👍5

www.tgoop.com/quant_prune_distill/277

1.22K viewsJun 17, 2024 at 21:02

tgoop.com/quant_prune_distill/277

Create: 2024-06-17
Last Update: 2025-09-05 03:16:32

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
[Статья][Нет кода]

Метод

Трансформерные блоки, как известно обладают аддитивными skip connections следующего вида (для простоты изложения забьем на нормализацию):

x = x + attn(x) x = x + mlp(x)

Выход mlp, attn нередко инициализируется нулем и остается небольшим по норме в процессе обучения. Следовательно, каждый блок меняет понемножку внутренне представление.

В данной работе предлагают выбрасывать те блоки, которые изменяют меньше всего внутреннее представление на некоторой выборке (примерах из PG19). В качестве расстояния используют среднее косинусное расстояние между токенами перед и после данного блока. В итоге убираются блоки с наименьшим косинусным расстоянием.

Результаты

Так как работа от китайских коллег, то замеряют качество как на Llama-2, так и на Baichuan. Для оценки качества используют стандарнтые 0-шоты, MMLU и CMMLU.

Предложенная метрика выбирает блоки ближе к концу сети (но не самые последние).

Результаты бенчмарков вызывают вопросы, утверждается, что качество на MMLU почти не просаживается вплоть до 28% sparsity, при этом перплексия на wikitext2 возрастает довольно заметно. При таких значениях обычно сеть с трудом два слова связать может, не то что решать задачи на логику). lm-eval-harness нигде не цитируется. По всей видимости используют какой-то иной или самописный фреймворк.

Безлайны - методы структурированного прунинга в ширину, естественно, бьют. С ShortenedLLama, вышедшей чуть раньше, не сравниваются.

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/277

Telegram News

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect