tgoop.com/quant_prune_distill/147
Last Update:
Эксперименты
Метод валидируют на моделях семейства OPT, Llama-2 и Falcon. Для оценки качества замеряют перплексию на WikiText2 и точность на zero-shot из lm-eval-harness. Во всех экспериментах берут 256 оутлаеров, примерно 3% измерений для OPT-66B.
QUIK достигает заметно лучшего качества по сравнению с бейзлайнами SmoothQuant, OmniQuant, RPTQ при квантовании в 4 бита. Просадка по качеству значительная, но приемлемая для многих приложений.
Квантование в 8 бит сохраняет исходное качество для всех рассмотренных моделей.
Предложенный метод дает примерно двукратное ускорение по сравнению с fp16 при квантовании в 8 бит, и до 3.4x при квантовании в 4 бита (при 4-кратном теоретическом).
Пиковый расход памяти уменьшается от 2 до 3.5 раз в зависимости от размера модели.
Ablation study показывает, что 256 оутлаеров около оптимально. Квантование Down Proj в 4 бита сильно ухудшает качество, при этом инференс этой группы слоев в 8 битах не слишком сказывается на общем времени работы.
Квантование можно совместить с 2:4 sparsity, но для сохранения качества приходится прунить только attention проекции.
Вывод
Практически полезный технический результат.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/147