Notice: file_put_contents(): Write of 9880 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 18072 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
КПД@quant_prune_distill P.398
QUANT_PRUNE_DISTILL Telegram 398
LLM KV cache compression made easy
[Репозиторий]

В связи с ростом потребности в эффективной по памяти и скорости работе с длинным контекстом (особенно с учетом набирающего популярность test-time compute scaling) все острее стоит вопрос сжатия KV-кэшей. Данной теме уже посвящено немалое число работ (и существует уже интеграция в transformers).

И недавно ребята из одной зеленой компании выкатили либу, с реализацией разных техник сжатия KV-кэшей под названием kvpress.

В данной либе реализовано несколько простых и популярных техник сжатия кэшей:
🌟 Случайный прунинг
🌟 Основанный на нормах токенов
🌟 Несколько подходов, основанных на attention скорах (SnapKV, TOVAPress, H20)

Причем битность можно задавать послойно при помощи класса PerLayerCompressionPress.

Самую SOTA (например, PyramidKV) в области пока еще не завезли, увы.

В репозитории есть ноутбуки с демострацией использования библиотеки и замерами скорости и памяти.

Либа действительно удобная и приятная для использования.

Методы сжатия кэшей можно комбинировать с квантизацией кэшей у лицехватов 🤗.
👍7



tgoop.com/quant_prune_distill/398
Create:
Last Update:

LLM KV cache compression made easy
[Репозиторий]

В связи с ростом потребности в эффективной по памяти и скорости работе с длинным контекстом (особенно с учетом набирающего популярность test-time compute scaling) все острее стоит вопрос сжатия KV-кэшей. Данной теме уже посвящено немалое число работ (и существует уже интеграция в transformers).

И недавно ребята из одной зеленой компании выкатили либу, с реализацией разных техник сжатия KV-кэшей под названием kvpress.

В данной либе реализовано несколько простых и популярных техник сжатия кэшей:
🌟 Случайный прунинг
🌟 Основанный на нормах токенов
🌟 Несколько подходов, основанных на attention скорах (SnapKV, TOVAPress, H20)

Причем битность можно задавать послойно при помощи класса PerLayerCompressionPress.

Самую SOTA (например, PyramidKV) в области пока еще не завезли, увы.

В репозитории есть ноутбуки с демострацией использования библиотеки и замерами скорости и памяти.

Либа действительно удобная и приятная для использования.

Методы сжатия кэшей можно комбинировать с квантизацией кэшей у лицехватов 🤗.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/398

View MORE
Open in Telegram


Telegram News

Date: |

A vandalised bank during the 2019 protest. File photo: May James/HKFP. The Standard Channel While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months.
from us


Telegram КПД
FROM American