QUANT_PRUNE_DISTILL Telegram 275
Прунинг LLM в глубину

Данный пост был в замыслах уже пару месяцев, но все никак не доходили руки.

Ниже приведен разбор нескольких статей, посвященных одной и той же теме - depth pruning. Так как задача и мотивация у всех статей общая, то и введение дедуплицированное, общее для всех работ.

Введение

При структурированном прунинге веса отбрасываются не поодиночке, а группами - поканально, поголовно 🗿 (трансформерно поголовно), иногда даже весь слой целиком отправляется в царство Аида ☠️. Структурированный прунинг хорош тем, что явно уменьшает размерности матриц и тензоров в операциях, потому дает неплохое ускорение на разнообразном железе и движках. Увы, серьезного сжатия без серьезной просадки в качестве обычно сложно достичь без серьезных вложений в дообучение.

Трансформеры содержат skip-connection как в Attention, так и в MLP. Residual type архитектуры, как было замечено еще давно , являются в некотором смысле ансамблями, где конечный выход можно воспринимать как агрегацию знания от нескольких неглубоких экспертов. Одна голова хорошо, две лучше, еще больше - еще лучше, но и иногда и пары специалистов достаточно. Потому есть основания полагать, что прунинг в глубину - прореживание целых блоков - имеет шанс завестись и сжатая модель будет выдавать адекватную точность.
👍11



tgoop.com/quant_prune_distill/275
Create:
Last Update:

Прунинг LLM в глубину

Данный пост был в замыслах уже пару месяцев, но все никак не доходили руки.

Ниже приведен разбор нескольких статей, посвященных одной и той же теме - depth pruning. Так как задача и мотивация у всех статей общая, то и введение дедуплицированное, общее для всех работ.

Введение

При структурированном прунинге веса отбрасываются не поодиночке, а группами - поканально, поголовно 🗿 (трансформерно поголовно), иногда даже весь слой целиком отправляется в царство Аида ☠️. Структурированный прунинг хорош тем, что явно уменьшает размерности матриц и тензоров в операциях, потому дает неплохое ускорение на разнообразном железе и движках. Увы, серьезного сжатия без серьезной просадки в качестве обычно сложно достичь без серьезных вложений в дообучение.

Трансформеры содержат skip-connection как в Attention, так и в MLP. Residual type архитектуры, как было замечено еще давно , являются в некотором смысле ансамблями, где конечный выход можно воспринимать как агрегацию знания от нескольких неглубоких экспертов. Одна голова хорошо, две лучше, еще больше - еще лучше, но и иногда и пары специалистов достаточно. Потому есть основания полагать, что прунинг в глубину - прореживание целых блоков - имеет шанс завестись и сжатая модель будет выдавать адекватную точность.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/275

View MORE
Open in Telegram


Telegram News

Date: |

Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group.
from us


Telegram КПД
FROM American