QUANT_PRUNE_DISTILL Telegram 252
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study
[Статья] [Код]
Спасибо https://www.tgoop.com/senior_augur за наводку

Недели не прошло как Llama-3 появилась на свет 👶, как группа исследователей из Китая 🇨🇳 с присущей только азиатам скоростью опубликовала исследования про то, как разные методы квантования и дообучения квантованных моделей просаживают качество.

Эксперименты

Авторы рассматривают 8 более-менее современных методов PTQ (post-training) квантования (RTN, GPTQ, AWQ, QuIP, PB-LLM, DB-LLM, BiLLM, SmoothQuant) и два метода дообучения квантованных моделей - QLoRA, IR-QLoRA.

Качество замеряют на стандартных бенчах по перплексии и 0-shot на lm-eval-harness + 5-shot MMLU.

В первом случае, рассматривают weight only квантование в 1+, 2, 3, 4, 8 бит для всех методов окромя SmoothQuant и W4A4, W6A6, W8A8 (квантование и весов, и активаций) для SmoothQuant. Для калибровки используют 128 последовательностей из Wikitext2-train длины 2к (мало! 😠).

Заметная просадка наблюдается уже в 4 битах, а при приближении к 2 битам большинство методов полностью ломают модель или поднимают значение перплексии до 2-значных значений против 1-значных. Замеряют на 2к контекстном окне, хотя было бы логичнее использовать 8к - длине контекста на обучении.

Для дообучения с QLoRAми используют инструкции из Alpaca. LoRA адаптеры применяют поверх квантования из bitsandbytes (RTN в NormalFloat-4). Что любопытно, все файтьюны портят качество по сравнению с просто квантованной моделью. Варианта здесь два - либо инструкции из Alpaca слишком плохи, либо авторы криво завели дообучение. Учитывая, что можно было запустить дообучение с lr=0, как минимум реально не просадить качество)

Выводы

Авторы явно предпочли скорость публикации ее качеству и полноте. Методы векторной квантизации (QuIP#, AQLM) никак не отражены в работе. Справедливости ради стоит заметить, что они требуют значительно больших вычислительных затрат и времени по сравнению с рассмотренными выше. Тем не менее основное заключение статьи про то, что качество Llama-3 сложнее сохранить при сжатии модели по сравнению с ее предшественниками и иными семействами открытых моделей, похоже, действительно имеет место. Полагаю, что это логично, ибо веса модели, обученной на 15Т токенов в каком-то смысле должны быть более насыщенными информацией…
🔥152👍1👏1🤔1



tgoop.com/quant_prune_distill/252
Create:
Last Update:

How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study
[Статья] [Код]
Спасибо https://www.tgoop.com/senior_augur за наводку

Недели не прошло как Llama-3 появилась на свет 👶, как группа исследователей из Китая 🇨🇳 с присущей только азиатам скоростью опубликовала исследования про то, как разные методы квантования и дообучения квантованных моделей просаживают качество.

Эксперименты

Авторы рассматривают 8 более-менее современных методов PTQ (post-training) квантования (RTN, GPTQ, AWQ, QuIP, PB-LLM, DB-LLM, BiLLM, SmoothQuant) и два метода дообучения квантованных моделей - QLoRA, IR-QLoRA.

Качество замеряют на стандартных бенчах по перплексии и 0-shot на lm-eval-harness + 5-shot MMLU.

В первом случае, рассматривают weight only квантование в 1+, 2, 3, 4, 8 бит для всех методов окромя SmoothQuant и W4A4, W6A6, W8A8 (квантование и весов, и активаций) для SmoothQuant. Для калибровки используют 128 последовательностей из Wikitext2-train длины 2к (мало! 😠).

Заметная просадка наблюдается уже в 4 битах, а при приближении к 2 битам большинство методов полностью ломают модель или поднимают значение перплексии до 2-значных значений против 1-значных. Замеряют на 2к контекстном окне, хотя было бы логичнее использовать 8к - длине контекста на обучении.

Для дообучения с QLoRAми используют инструкции из Alpaca. LoRA адаптеры применяют поверх квантования из bitsandbytes (RTN в NormalFloat-4). Что любопытно, все файтьюны портят качество по сравнению с просто квантованной моделью. Варианта здесь два - либо инструкции из Alpaca слишком плохи, либо авторы криво завели дообучение. Учитывая, что можно было запустить дообучение с lr=0, как минимум реально не просадить качество)

Выводы

Авторы явно предпочли скорость публикации ее качеству и полноте. Методы векторной квантизации (QuIP#, AQLM) никак не отражены в работе. Справедливости ради стоит заметить, что они требуют значительно больших вычислительных затрат и времени по сравнению с рассмотренными выше. Тем не менее основное заключение статьи про то, что качество Llama-3 сложнее сохранить при сжатии модели по сравнению с ее предшественниками и иными семействами открытых моделей, похоже, действительно имеет место. Полагаю, что это логично, ибо веса модели, обученной на 15Т токенов в каком-то смысле должны быть более насыщенными информацией…

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/252

View MORE
Open in Telegram


Telegram News

Date: |

During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. 5Telegram Channel avatar size/dimensions End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020.
from us


Telegram КПД
FROM American