QUANT_PRUNE_DISTILL Telegram 147
Эксперименты

Метод валидируют на моделях семейства OPT, Llama-2 и Falcon. Для оценки качества замеряют перплексию на WikiText2 и точность на zero-shot из lm-eval-harness. Во всех экспериментах берут 256 оутлаеров, примерно 3% измерений для OPT-66B.

QUIK достигает заметно лучшего качества по сравнению с бейзлайнами SmoothQuant, OmniQuant, RPTQ при квантовании в 4 бита. Просадка по качеству значительная, но приемлемая для многих приложений.

Квантование в 8 бит сохраняет исходное качество для всех рассмотренных моделей.

Предложенный метод дает примерно двукратное ускорение по сравнению с fp16 при квантовании в 8 бит, и до 3.4x при квантовании в 4 бита (при 4-кратном теоретическом).

Пиковый расход памяти уменьшается от 2 до 3.5 раз в зависимости от размера модели.

Ablation study показывает, что 256 оутлаеров около оптимально. Квантование Down Proj в 4 бита сильно ухудшает качество, при этом инференс этой группы слоев в 8 битах не слишком сказывается на общем времени работы.

Квантование можно совместить с 2:4 sparsity, но для сохранения качества приходится прунить только attention проекции.

Вывод

Практически полезный технический результат.
👍2



tgoop.com/quant_prune_distill/147
Create:
Last Update:

Эксперименты

Метод валидируют на моделях семейства OPT, Llama-2 и Falcon. Для оценки качества замеряют перплексию на WikiText2 и точность на zero-shot из lm-eval-harness. Во всех экспериментах берут 256 оутлаеров, примерно 3% измерений для OPT-66B.

QUIK достигает заметно лучшего качества по сравнению с бейзлайнами SmoothQuant, OmniQuant, RPTQ при квантовании в 4 бита. Просадка по качеству значительная, но приемлемая для многих приложений.

Квантование в 8 бит сохраняет исходное качество для всех рассмотренных моделей.

Предложенный метод дает примерно двукратное ускорение по сравнению с fp16 при квантовании в 8 бит, и до 3.4x при квантовании в 4 бита (при 4-кратном теоретическом).

Пиковый расход памяти уменьшается от 2 до 3.5 раз в зависимости от размера модели.

Ablation study показывает, что 256 оутлаеров около оптимально. Квантование Down Proj в 4 бита сильно ухудшает качество, при этом инференс этой группы слоев в 8 битах не слишком сказывается на общем времени работы.

Квантование можно совместить с 2:4 sparsity, но для сохранения качества приходится прунить только attention проекции.

Вывод

Практически полезный технический результат.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/147

View MORE
Open in Telegram


Telegram News

Date: |

The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Users are more open to new information on workdays rather than weekends. Write your hashtags in the language of your target audience. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information.
from us


Telegram КПД
FROM American