QUANT_PRUNE_DISTILL Telegram 224
Towards 1-bit Machine Learning Models
[Блогпост]
Спасибо за наводку https://www.tgoop.com/toshoseti

Сжатие и ускорение LLM нынче пользуется большим спросом, и потому существуют кожаные мешки, пытающиеся сорвать хайп на этой теме.. И вот недавно вышел воистину чудный образец.

Метод

1️⃣ Квантуют модель методом HQQ
2️⃣ Дообучают LoRA адаптер поверх квантованной модели

Все вместе называется HQQ+.

Эксперименты

Все эксперименты проводятся с Llama-2-7b. Для дообучения базовой модели берут 2.8k примеров из WikiText2, для instruction finetuning - cмесь из guanaco, orca-math, MetaMathQA, UltraFeedBack_binarized.

На базовой модели HQQ ломает полностью модель при 1-битном квантовании, но LoRA адаптер якобы выравнивает модель по качеству с 2-битным QuIP#. А 2-битная по перплексии даже лучше исходной! Переходим на 1 и 2-битные модели?

Но есть нюансы:
1️⃣ Сравнение проводится со старой версией QuIP#. Да и то, почему-то перплексия хуже, чем заявлено в официальном блоге. А новые версии AQLM и QuIP# достигают перплексии ~6.2 на wikitext2.
2️⃣ Нет замеров на каких-либо других бенчмарках (хоть c4 и 0-shotах из lm-eval-harness).

Потому наверняка просто имеем дело с оверфитом под датасет, а сами модели не рабочие где-либо еще.

This is a significant finding, as it suggests that quantization with HQQ+ not only reduces the memory footprint and computational requirements but can also potentially improve the model's language modeling performance.


При AQLM квантовании в 2 бита у нас тоже улучшилась перплексия по сравнению с fp16, но качество на 0-шотах было хуже, чем у базовой модели. Так что нихрена это не улучшение.

При instruction finetuning 1-bit HQQ снова ломает модель до уровня рандома (качество около 1 / число ответов). Но адаптер позволяет оторваться на 10% от уровня рандома. А 2-битное квантование уже близко по качеству к Llama-2-7b-chat.

Однако, снова нет сравнения с SOTA quantization methods, и бенчмарки вызывают вопросы. Llama-2-7b-chat на TruthfulQA имеет качество 57.04%, а здесь репортят 45.32%.

Выводы

По большей части лютый скам, но все же некоторая мораль есть. Адаптер поверх сжатой модели дает серьезную компенсацию даже для поломанной модели. Идея применить адаптер поверх квантованной модели не нова и ведет начало как минимум от QLoRA.
🤝5👍3



tgoop.com/quant_prune_distill/224
Create:
Last Update:

Towards 1-bit Machine Learning Models
[Блогпост]
Спасибо за наводку https://www.tgoop.com/toshoseti

Сжатие и ускорение LLM нынче пользуется большим спросом, и потому существуют кожаные мешки, пытающиеся сорвать хайп на этой теме.. И вот недавно вышел воистину чудный образец.

Метод

1️⃣ Квантуют модель методом HQQ
2️⃣ Дообучают LoRA адаптер поверх квантованной модели

Все вместе называется HQQ+.

Эксперименты

Все эксперименты проводятся с Llama-2-7b. Для дообучения базовой модели берут 2.8k примеров из WikiText2, для instruction finetuning - cмесь из guanaco, orca-math, MetaMathQA, UltraFeedBack_binarized.

На базовой модели HQQ ломает полностью модель при 1-битном квантовании, но LoRA адаптер якобы выравнивает модель по качеству с 2-битным QuIP#. А 2-битная по перплексии даже лучше исходной! Переходим на 1 и 2-битные модели?

Но есть нюансы:
1️⃣ Сравнение проводится со старой версией QuIP#. Да и то, почему-то перплексия хуже, чем заявлено в официальном блоге. А новые версии AQLM и QuIP# достигают перплексии ~6.2 на wikitext2.
2️⃣ Нет замеров на каких-либо других бенчмарках (хоть c4 и 0-shotах из lm-eval-harness).

Потому наверняка просто имеем дело с оверфитом под датасет, а сами модели не рабочие где-либо еще.

This is a significant finding, as it suggests that quantization with HQQ+ not only reduces the memory footprint and computational requirements but can also potentially improve the model's language modeling performance.


При AQLM квантовании в 2 бита у нас тоже улучшилась перплексия по сравнению с fp16, но качество на 0-шотах было хуже, чем у базовой модели. Так что нихрена это не улучшение.

При instruction finetuning 1-bit HQQ снова ломает модель до уровня рандома (качество около 1 / число ответов). Но адаптер позволяет оторваться на 10% от уровня рандома. А 2-битное квантование уже близко по качеству к Llama-2-7b-chat.

Однако, снова нет сравнения с SOTA quantization methods, и бенчмарки вызывают вопросы. Llama-2-7b-chat на TruthfulQA имеет качество 57.04%, а здесь репортят 45.32%.

Выводы

По большей части лютый скам, но все же некоторая мораль есть. Адаптер поверх сжатой модели дает серьезную компенсацию даже для поломанной модели. Идея применить адаптер поверх квантованной модели не нова и ведет начало как минимум от QLoRA.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/224

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? 4How to customize a Telegram channel? Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. How to create a business channel on Telegram? (Tutorial) To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram КПД
FROM American