tgoop.com/quant_prune_distill/252
Last Update:
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study
[Статья] [Код]
Спасибо https://www.tgoop.com/senior_augur за наводку
Недели не прошло как Llama-3 появилась на свет 👶, как группа исследователей из Китая 🇨🇳 с присущей только азиатам скоростью опубликовала исследования про то, как разные методы квантования и дообучения квантованных моделей просаживают качество.
Эксперименты
Авторы рассматривают 8 более-менее современных методов PTQ (post-training) квантования (RTN, GPTQ, AWQ, QuIP, PB-LLM, DB-LLM, BiLLM, SmoothQuant) и два метода дообучения квантованных моделей - QLoRA, IR-QLoRA.
Качество замеряют на стандартных бенчах по перплексии и 0-shot на lm-eval-harness + 5-shot MMLU.
В первом случае, рассматривают weight only квантование в 1+, 2, 3, 4, 8 бит для всех методов окромя SmoothQuant и W4A4, W6A6, W8A8 (квантование и весов, и активаций) для SmoothQuant. Для калибровки используют 128 последовательностей из Wikitext2-train длины 2к (мало! 😠).
Заметная просадка наблюдается уже в 4 битах, а при приближении к 2 битам большинство методов полностью ломают модель или поднимают значение перплексии до 2-значных значений против 1-значных. Замеряют на 2к контекстном окне, хотя было бы логичнее использовать 8к - длине контекста на обучении.
Для дообучения с QLoRAми используют инструкции из Alpaca. LoRA адаптеры применяют поверх квантования из bitsandbytes (RTN в NormalFloat-4). Что любопытно, все файтьюны портят качество по сравнению с просто квантованной моделью. Варианта здесь два - либо инструкции из Alpaca слишком плохи, либо авторы криво завели дообучение. Учитывая, что можно было запустить дообучение с lr=0, как минимум реально не просадить качество)
Выводы
Авторы явно предпочли скорость публикации ее качеству и полноте. Методы векторной квантизации (QuIP#, AQLM) никак не отражены в работе. Справедливости ради стоит заметить, что они требуют значительно больших вычислительных затрат и времени по сравнению с рассмотренными выше. Тем не менее основное заключение статьи про то, что качество Llama-3 сложнее сохранить при сжатии модели по сравнению с ее предшественниками и иными семействами открытых моделей, похоже, действительно имеет место. Полагаю, что это логично, ибо веса модели, обученной на 15Т токенов в каком-то смысле должны быть более насыщенными информацией…
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/252