tgoop.com/quant_prune_distill/224
Last Update:
Towards 1-bit Machine Learning Models
[Блогпост]
Спасибо за наводку https://www.tgoop.com/toshoseti
Сжатие и ускорение LLM нынче пользуется большим спросом, и потому существуют кожаные мешки, пытающиеся сорвать хайп на этой теме.. И вот недавно вышел воистину чудный образец.
Метод
1️⃣ Квантуют модель методом HQQ
2️⃣ Дообучают LoRA адаптер поверх квантованной модели
Все вместе называется HQQ+.
Эксперименты
Все эксперименты проводятся с Llama-2-7b. Для дообучения базовой модели берут 2.8k примеров из WikiText2, для instruction finetuning - cмесь из guanaco, orca-math, MetaMathQA, UltraFeedBack_binarized.
На базовой модели HQQ ломает полностью модель при 1-битном квантовании, но LoRA адаптер якобы выравнивает модель по качеству с 2-битным QuIP#. А 2-битная по перплексии даже лучше исходной! Переходим на 1 и 2-битные модели?
Но есть нюансы:
1️⃣ Сравнение проводится со старой версией QuIP#. Да и то, почему-то перплексия хуже, чем заявлено в официальном блоге. А новые версии AQLM и QuIP# достигают перплексии ~6.2 на wikitext2.
2️⃣ Нет замеров на каких-либо других бенчмарках (хоть c4 и 0-shotах из lm-eval-harness).
Потому наверняка просто имеем дело с оверфитом под датасет, а сами модели не рабочие где-либо еще.
This is a significant finding, as it suggests that quantization with HQQ+ not only reduces the memory footprint and computational requirements but can also potentially improve the model's language modeling performance.
При AQLM квантовании в 2 бита у нас тоже улучшилась перплексия по сравнению с fp16, но качество на 0-шотах было хуже, чем у базовой модели. Так что нихрена это не улучшение.
При instruction finetuning 1-bit HQQ снова ломает модель до уровня рандома (качество около 1 / число ответов). Но адаптер позволяет оторваться на 10% от уровня рандома. А 2-битное квантование уже близко по качеству к Llama-2-7b-chat.
Однако, снова нет сравнения с SOTA quantization methods, и бенчмарки вызывают вопросы. Llama-2-7b-chat на TruthfulQA имеет качество 57.04%, а здесь репортят 45.32%.
Выводы
По большей части лютый скам, но все же некоторая мораль есть. Адаптер поверх сжатой модели дает серьезную компенсацию даже для поломанной модели. Идея применить адаптер поверх квантованной модели не нова и ведет начало как минимум от QLoRA.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/224