tgoop.com/quant_prune_distill/398
Last Update:
LLM KV cache compression made easy
[Репозиторий]
В связи с ростом потребности в эффективной по памяти и скорости работе с длинным контекстом (особенно с учетом набирающего популярность test-time compute scaling) все острее стоит вопрос сжатия KV-кэшей. Данной теме уже посвящено немалое число работ (и существует уже интеграция в transformers).
И недавно ребята из одной зеленой компании выкатили либу, с реализацией разных техник сжатия KV-кэшей под названием kvpress.
В данной либе реализовано несколько простых и популярных техник сжатия кэшей:
🌟 Случайный прунинг
🌟 Основанный на нормах токенов
🌟 Несколько подходов, основанных на attention скорах (SnapKV, TOVAPress, H20)
Причем битность можно задавать послойно при помощи класса PerLayerCompressionPress
.
Самую SOTA (например, PyramidKV) в области пока еще не завезли, увы.
В репозитории есть ноутбуки с демострацией использования библиотеки и замерами скорости и памяти.
Либа действительно удобная и приятная для использования.
Методы сжатия кэшей можно комбинировать с квантизацией кэшей у лицехватов 🤗.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/398