КПД@quant_prune_distill P.275

КПД

Прунинг LLM в глубину

Данный пост был в замыслах уже пару месяцев, но все никак не доходили руки.

Ниже приведен разбор нескольких статей, посвященных одной и той же теме - depth pruning. Так как задача и мотивация у всех статей общая, то и введение дедуплицированное, общее для всех работ.

Введение

При структурированном прунинге веса отбрасываются не поодиночке, а группами - поканально, поголовно 🗿 (трансформерно поголовно), иногда даже весь слой целиком отправляется в царство Аида ☠️. Структурированный прунинг хорош тем, что явно уменьшает размерности матриц и тензоров в операциях, потому дает неплохое ускорение на разнообразном железе и движках. Увы, серьезного сжатия без серьезной просадки в качестве обычно сложно достичь без серьезных вложений в дообучение.

Трансформеры содержат skip-connection как в Attention, так и в MLP. Residual type архитектуры, как было замечено еще давно , являются в некотором смысле ансамблями, где конечный выход можно воспринимать как агрегацию знания от нескольких неглубоких экспертов. Одна голова хорошо, две лучше, еще больше - еще лучше, но и иногда и пары специалистов достаточно. Потому есть основания полагать, что прунинг в глубину - прореживание целых блоков - имеет шанс завестись и сжатая модель будет выдавать адекватную точность.

👍11

www.tgoop.com/quant_prune_distill/275

1.1K viewsJun 17, 2024 at 20:56

tgoop.com/quant_prune_distill/275

Create: 2024-06-17
Last Update: 2025-09-08 00:52:05

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/275

Telegram News

Прунинг LLM в глубину