tgoop.com/quant_prune_distill/191
Last Update:
Результаты
Одним словом, вышло здорово.
Валидация стандартная - бенчмарки по перплексии (Wikitext2/C4) и подборка zero-shot из lm_eval_harness
(ArcC, ArcE, Winogrande, PiQA).
На битностях 2,3,4 опережают известные методы по качеству почти везде. Отрыв от AQLM небольшой, но все же есть.
QuIP# достигает Парето-оптимальности при квантовании в 3 бита (отдельные конфигурации AQLM Парето-оптимальны в 2.5-2.6 битах).
Выбор решетки имеет влияние на качество модели, но дообучение неквантованных параметров накидывает больше.
Кроме того, все это хозяйство можно вполне эффективно инферить, с приемлемой производильностью. При этом авторы отвечают, что среди них нет мастеров по написанию CUDA кернелов, и можно еще ускорить генерацию.
Выводы
Сильный результат и красивая математика. Гонка по сжатию LLM становится все захватывающее. Интересно, какова же все-таки битность Парето кривой при использовании самого лучшего из возможных методов квантования моделей и как скоро мы посадим почти lossless 70b модель на сolab.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/191