QUANT_PRUNE_DISTILL Telegram 277
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
[Статья][Нет кода]

Метод

Трансформерные блоки, как известно обладают аддитивными skip connections следующего вида (для простоты изложения забьем на нормализацию):

x = x + attn(x)
x = x + mlp(x)


Выход mlp, attn нередко инициализируется нулем и остается небольшим по норме в процессе обучения. Следовательно, каждый блок меняет понемножку внутренне представление.

В данной работе предлагают выбрасывать те блоки, которые изменяют меньше всего внутреннее представление на некоторой выборке (примерах из PG19). В качестве расстояния используют среднее косинусное расстояние между токенами перед и после данного блока. В итоге убираются блоки с наименьшим косинусным расстоянием.

Результаты

Так как работа от китайских коллег, то замеряют качество как на Llama-2, так и на Baichuan. Для оценки качества используют стандарнтые 0-шоты, MMLU и CMMLU.

Предложенная метрика выбирает блоки ближе к концу сети (но не самые последние).

Результаты бенчмарков вызывают вопросы, утверждается, что качество на MMLU почти не просаживается вплоть до 28% sparsity, при этом перплексия на wikitext2 возрастает довольно заметно. При таких значениях обычно сеть с трудом два слова связать может, не то что решать задачи на логику). lm-eval-harness нигде не цитируется. По всей видимости используют какой-то иной или самописный фреймворк.

Безлайны - методы структурированного прунинга в ширину, естественно, бьют. С ShortenedLLama, вышедшей чуть раньше, не сравниваются.
👍5



tgoop.com/quant_prune_distill/277
Create:
Last Update:

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
[Статья][Нет кода]

Метод

Трансформерные блоки, как известно обладают аддитивными skip connections следующего вида (для простоты изложения забьем на нормализацию):

x = x + attn(x)
x = x + mlp(x)


Выход mlp, attn нередко инициализируется нулем и остается небольшим по норме в процессе обучения. Следовательно, каждый блок меняет понемножку внутренне представление.

В данной работе предлагают выбрасывать те блоки, которые изменяют меньше всего внутреннее представление на некоторой выборке (примерах из PG19). В качестве расстояния используют среднее косинусное расстояние между токенами перед и после данного блока. В итоге убираются блоки с наименьшим косинусным расстоянием.

Результаты

Так как работа от китайских коллег, то замеряют качество как на Llama-2, так и на Baichuan. Для оценки качества используют стандарнтые 0-шоты, MMLU и CMMLU.

Предложенная метрика выбирает блоки ближе к концу сети (но не самые последние).

Результаты бенчмарков вызывают вопросы, утверждается, что качество на MMLU почти не просаживается вплоть до 28% sparsity, при этом перплексия на wikitext2 возрастает довольно заметно. При таких значениях обычно сеть с трудом два слова связать может, не то что решать задачи на логику). lm-eval-harness нигде не цитируется. По всей видимости используют какой-то иной или самописный фреймворк.

Безлайны - методы структурированного прунинга в ширину, естественно, бьют. С ShortenedLLama, вышедшей чуть раньше, не сравниваются.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/277

View MORE
Open in Telegram


Telegram News

Date: |

Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. How to create a business channel on Telegram? (Tutorial) ‘Ban’ on Telegram Content is editable within two days of publishing The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram КПД
FROM American