КПД@quant_prune_distill P.423

КПД

Эксперименты

Обучают семейство моделей размером от 30 до 800М параметров архитектуры 🦙-2 на C4 с более-менее стандартным рецептом обучения. По умолчанию отношение количества данных к числу параметров D/N=100.

Как меру качества берут перплексию на отложенной выборке.

QuEST работает лучше, чем PACT и LSQ бейзлайны.

Далее фитируют scaling law, который отличается от оригинального из статьи про Шиншиллу фактором eff(P) - поправкой на битность параметра (eff(P) = 1 для fp16). Исходя из эмпирических графиков лосса для моделей разного размера и битности, получают Парето-оптимальность в 4-х битах. 4 битный параметр эффективно равен 0.7 fp16, но модель-то при этом в 4 раза меньше, отсюда выигрыш в 2.7 раз по эффективности.

Метод пробуют на FP4 и 2:4 sparsity + INT4, где все тоже неплохо заводится.

В ablation показывают, что Адамаровы вращения дают некоторый прирост качества на W1A1 и W2A2, при этом лишь немного замедляя инференс.

Вывод

Как мне кажется, довольно обнадеживающий экспериментальный результат. Все больше и больше подтверждений тому, что следует с самого начала учить в низкой точности дабы нищеброды потом уже не просили униженно GGUF, GPTQ или AWQ кванты. Интересно, можно ли пробить ниже еще порог Парето-оптимальности по битностям весов/активаций или мы упираемся уже в некий потолок? Ждем экспериментов на большем масшабе. Глядишь Meta, Qwen или DeepSeek порадуют.

❤7

www.tgoop.com/quant_prune_distill/423

6.68K viewsedited Feb 11 at 11:19

tgoop.com/quant_prune_distill/423

Create: 2025-02-11
Last Update: 2025-08-24 10:54:40

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/423

Telegram News

Эксперименты