QUANT_PRUNE_DISTILL Telegram 308
On the Impact of Calibration Data in Post-training Quantization and Pruning
[Статья][Лаконичный ридми]

Введение

Многие современные методы сжатия моделей (что квантизация, что прунинг) оптимизируют некоторую меру ошибки на репрезентативной выборке данных (калибровочном датасете). Интуитивно понятно, что эта выборка есть приближение целевого распределения данных, поэтому желательно, чтобы этой самый калибровочный датасет как можно точнее и полнее приближал его.

На текущий момент, в сообществе не сложилось четких правил и предписаний по сбору калибровочных данных. Преимущественно, исследователи и практики полагаются на то, что было предложено ранее в работах, или тому что предлагает GGUF.

И в этой работе, авторы исследуют вопрос влияния калибровочных данных на качество data-aware методов сжатия LLMок.

Метод

Берутся 2 метода квантизации
1️⃣ GPTQ
2️⃣ SpQR (я польщен 😇)
И 2 метода прунинга
1️⃣ SparseGPT
2️⃣ Wanda

Модели квантизуют в 4 бита (SpQR в ~4.5 по факту), и прунят в 2:4 sparsity.

В качестве калибровочных данных рассматривают следующие источники:
1️⃣ C4 (бессмертная классика)
2️⃣ CNN-DM (новости, длинный текст хорошего качества, именно текст, не сами новости)
3️⃣ RedPajama
4️⃣ RefinedWeb
5️⃣ Wikipedia (английская)

Отовсюду берут 128 сэмплов длины 2048, как в статье GPTQ.

Качество замеряют на десяти 0-shot бенчах.

Берут 9 моделей:
1️⃣ Llama-1 (7B, 13B, 33B)
2️⃣ Vicuna, полученные из 🦙 выше
3️⃣ OPT (6.7B, 13B, 33B)
3



tgoop.com/quant_prune_distill/308
Create:
Last Update:

On the Impact of Calibration Data in Post-training Quantization and Pruning
[Статья][Лаконичный ридми]

Введение

Многие современные методы сжатия моделей (что квантизация, что прунинг) оптимизируют некоторую меру ошибки на репрезентативной выборке данных (калибровочном датасете). Интуитивно понятно, что эта выборка есть приближение целевого распределения данных, поэтому желательно, чтобы этой самый калибровочный датасет как можно точнее и полнее приближал его.

На текущий момент, в сообществе не сложилось четких правил и предписаний по сбору калибровочных данных. Преимущественно, исследователи и практики полагаются на то, что было предложено ранее в работах, или тому что предлагает GGUF.

И в этой работе, авторы исследуют вопрос влияния калибровочных данных на качество data-aware методов сжатия LLMок.

Метод

Берутся 2 метода квантизации
1️⃣ GPTQ
2️⃣ SpQR (я польщен 😇)
И 2 метода прунинга
1️⃣ SparseGPT
2️⃣ Wanda

Модели квантизуют в 4 бита (SpQR в ~4.5 по факту), и прунят в 2:4 sparsity.

В качестве калибровочных данных рассматривают следующие источники:
1️⃣ C4 (бессмертная классика)
2️⃣ CNN-DM (новости, длинный текст хорошего качества, именно текст, не сами новости)
3️⃣ RedPajama
4️⃣ RefinedWeb
5️⃣ Wikipedia (английская)

Отовсюду берут 128 сэмплов длины 2048, как в статье GPTQ.

Качество замеряют на десяти 0-shot бенчах.

Берут 9 моделей:
1️⃣ Llama-1 (7B, 13B, 33B)
2️⃣ Vicuna, полученные из 🦙 выше
3️⃣ OPT (6.7B, 13B, 33B)

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/308

View MORE
Open in Telegram


Telegram News

Date: |

bank east asia october 20 kowloon How to Create a Private or Public Channel on Telegram? Users are more open to new information on workdays rather than weekends. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013.
from us


Telegram КПД
FROM American