QUANT_PRUNE_DISTILL Telegram 167
The LLM Surgeon
[Статья] [Кода нет]

На текущий моментнаиболее успешные методы по прунингу и квантизации моделей так или иначе опираются на некоторое приближение матрицы вторых производных для определения важных весов и отпимальной сжатой конфигурации.

Чем больше модель, тем дороже становится вычисление любого приближения, и многие подходы не масштабируются на современные LLM.

SparseGPT / GPTQ и их производные оптимизируют квадратичную ошибку на выходе линейного слоя / свертки, но ничего не знают о целевой функции потерь. Чтобы учесть целевую функцию, надо так или иначе вычислить градиент (или его прокси) и агрегировать.

И на помощь приходит приближение матрицы Фишера для данного слоя (линейного или свертки) кронекеровским разложением F = A \otimes G. Первый фактор (матрица ковариации входных активаций) идентичен Гессиану квадратичной ошибки для данного слоя. Второй фактор - матрица ковариации градиентов по выходу слоя. Кронекеровское разложение точно в предположении независимости градиентов по выходу слоя от активаций, которое вообще говоря не выполняется, но попытка - не пытка.

И в данной работе, получилось успешно применить кронекеровское разложение в фреймворке Optimal Brain Surgeon.

Метод

Суть метода в следующем - берут Optimal Brain Surgeon, где вместо настоящего Гессиана используется Кронекеровское разложение и выводят формулы для неструктурированного / 2:4 и структурированного прунинга. Для более высоких уровней прореживания метод применяют итеративно - между итерациями прунинга дообучают LoRA добавки и пересчитывают матрицу Фишера (до 40 раз при прореживании до 50%). Недешевое удовольствие, но качество подымает почти гарантированно.
👍4



tgoop.com/quant_prune_distill/167
Create:
Last Update:

The LLM Surgeon
[Статья] [Кода нет]

На текущий моментнаиболее успешные методы по прунингу и квантизации моделей так или иначе опираются на некоторое приближение матрицы вторых производных для определения важных весов и отпимальной сжатой конфигурации.

Чем больше модель, тем дороже становится вычисление любого приближения, и многие подходы не масштабируются на современные LLM.

SparseGPT / GPTQ и их производные оптимизируют квадратичную ошибку на выходе линейного слоя / свертки, но ничего не знают о целевой функции потерь. Чтобы учесть целевую функцию, надо так или иначе вычислить градиент (или его прокси) и агрегировать.

И на помощь приходит приближение матрицы Фишера для данного слоя (линейного или свертки) кронекеровским разложением F = A \otimes G. Первый фактор (матрица ковариации входных активаций) идентичен Гессиану квадратичной ошибки для данного слоя. Второй фактор - матрица ковариации градиентов по выходу слоя. Кронекеровское разложение точно в предположении независимости градиентов по выходу слоя от активаций, которое вообще говоря не выполняется, но попытка - не пытка.

И в данной работе, получилось успешно применить кронекеровское разложение в фреймворке Optimal Brain Surgeon.

Метод

Суть метода в следующем - берут Optimal Brain Surgeon, где вместо настоящего Гессиана используется Кронекеровское разложение и выводят формулы для неструктурированного / 2:4 и структурированного прунинга. Для более высоких уровней прореживания метод применяют итеративно - между итерациями прунинга дообучают LoRA добавки и пересчитывают матрицу Фишера (до 40 раз при прореживании до 50%). Недешевое удовольствие, но качество подымает почти гарантированно.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/167

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Hashtags There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram КПД
FROM American