QUANT_PRUNE_DISTILL Telegram 146
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models
[Статья] [Код]

Вряд ли кто станет оспаривать утверждение, что сжатие и ускорение больших языковых моделей является одной из наиболее приоритетных задач для человечества. Большинство современных работ посвящего квантованию только весов сети, так как в случае инференса с батчом размера 1 основную часть времени занимают операции с памятью, а не вычисления. Однако, в некоторых сценариях пользователи могут быть заинтересованы в том, чтобы прогонять несколько последовательностей одновременно, как в случае обработки промптов. Тогда ускорение математических операций начинает приобретать смысл.

Метод

В этой статье авторы квантуют и веса, и активации в 4 бита. Для квантования весов используется симметричное квантование GPTQ, а для активаций динамическое (границы квантования определяются по время инференса) по токенам. Как известно, существуют отдельные размерности, где малые изменения значений весов и активаций могут существенно исказить выход. Потому предлагается их хранить в исходной точности. Определять их во время инференса неэффективно, но оказывается, что они находятся на тех же позициях, потому их можно определить заранее.

В этом по существу заключается и основная суть метода. Кроме того, для моделей семейcтва Llama-2 оказывается предпочтительным квантовать Down проекцию в MLP в 8 бит вместо 4-х, так как ее квантование сильно просаживает качество .

Ускорение вычислений достигается за счет того, что матричные операции проводятся в INT4. Название QUIK расшифровывается как QUantization to INT4 with GPU Kernel support.

При числе токенов от 1 до 16 операции матричное перемножение memory-bound, с большим количеством вычисления начинают доминировать.
👍4



tgoop.com/quant_prune_distill/146
Create:
Last Update:

QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models
[Статья] [Код]

Вряд ли кто станет оспаривать утверждение, что сжатие и ускорение больших языковых моделей является одной из наиболее приоритетных задач для человечества. Большинство современных работ посвящего квантованию только весов сети, так как в случае инференса с батчом размера 1 основную часть времени занимают операции с памятью, а не вычисления. Однако, в некоторых сценариях пользователи могут быть заинтересованы в том, чтобы прогонять несколько последовательностей одновременно, как в случае обработки промптов. Тогда ускорение математических операций начинает приобретать смысл.

Метод

В этой статье авторы квантуют и веса, и активации в 4 бита. Для квантования весов используется симметричное квантование GPTQ, а для активаций динамическое (границы квантования определяются по время инференса) по токенам. Как известно, существуют отдельные размерности, где малые изменения значений весов и активаций могут существенно исказить выход. Потому предлагается их хранить в исходной точности. Определять их во время инференса неэффективно, но оказывается, что они находятся на тех же позициях, потому их можно определить заранее.

В этом по существу заключается и основная суть метода. Кроме того, для моделей семейcтва Llama-2 оказывается предпочтительным квантовать Down проекцию в MLP в 8 бит вместо 4-х, так как ее квантование сильно просаживает качество .

Ускорение вычислений достигается за счет того, что матричные операции проводятся в INT4. Название QUIK расшифровывается как QUantization to INT4 with GPU Kernel support.

При числе токенов от 1 до 16 операции матричное перемножение memory-bound, с большим количеством вычисления начинают доминировать.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/146

View MORE
Open in Telegram


Telegram News

Date: |

While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression."
from us


Telegram КПД
FROM American