Душный NLP@stuffyNLP P.23

Душный NLP

О файнтюнинге после квантизации

Сжатие языковых моделей трансформеров, таких как LLaMA, OPT и GPT — важно для повышения их эффективности и скорости работы. Этому аспекту посвящена статья, которую мы сегодня разберём. Результаты в этой публикации оказались лучше, чем в январской статье Extreme Compression of Large Language Models via Additive Quantization благодаря улучшению шага файнтюнинга после основной квантизации.

Наиболее популярный и эффективный метод сжатия — квантизация. Это уменьшение количества бит, используемых для представления весов модели, что позволяет снизить размер LLM и ускорить её работу. При этом важно поддерживать баланс между степенью сжатия и качеством, поскольку экстремальное сжатие (например, до двух или одного бита) может значительно ухудшить качество.

Квантизация без файнтюнинга часто приводит к снижению качества. Поэтому после квантизации модель следует дообучать для приближения к результатам неквантизованной модели. Это особенно важно при экстремальных уровнях сжатия — до одного или полутора бит.

Популярная техника файнюнинга квантизированных весов — straight-through estimation. Однако в её рамках улучшение может идти непредсказуемо плохими градиентами.

Авторы статьи предлагают другой способ. Достаточно обновлять лишь небольшую долю весов в рамках одного шага — те, у которых самый большой градиент. Эти весы нужно обучить, а остальные — «заморозить». Затем следует пройтись большими шагами между «выжившими» весами. Таким образом, обновятся все или почти все веса.

Этот метод позволяет достичь оптимума по Парето, например, для моделей семейства LLaMA-2 при 2 битах. А для моделей сжатых до 1-1,5 бита на параметр результаты оказались лучше чем у аналогов.

Рассказывайте в комментариях, что вы думаете об этом методе и делитесь опытом!

Разбор подготовил ❣ Владимир Малиновский

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/stuffyNLP/23

6.3K viewsJul 4, 2024 at 10:27

tgoop.com/stuffyNLP/23

Create: 2024-07-04
Last Update: 2025-05-29 13:48:16

Telegram News

О файнтюнинге после квантизации