DLINNLP Telegram 1764
MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
Zuhri et al
arxiv.org/abs/2406.09297

Помните multi-query attention где вместо того чтобы у вас были разные key, query, value на каждую голову вы используете одни и те же kv для всех и разными бывают только query? Это очень классная идея которая сильно сокращает размер kv cache позволяя упихивать более длинные тексты или большие батчи в тот же объем памяти с минимальной потерей качества.

Авторы multi-layer kv heads предлагают сделать еще один шаг в эту сторону и предлагают шарить kv между соседними слоями тоже. То есть мы разбиваем наши слои на блоки, например по 4 слоя. И в каждой группе из 4 слоёв только лишь первый слой считает kv, остальные используют только query.

Потеря качества хоть и небольшая, но достаточно заметная, но иногда приходится упихивать неупихиваемое в GPU и хорошо иметь больше способов делать tradeoffs.
👍41🔥11❤‍🔥64👎2👀1



tgoop.com/dlinnlp/1764
Create:
Last Update:

MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
Zuhri et al
arxiv.org/abs/2406.09297

Помните multi-query attention где вместо того чтобы у вас были разные key, query, value на каждую голову вы используете одни и те же kv для всех и разными бывают только query? Это очень классная идея которая сильно сокращает размер kv cache позволяя упихивать более длинные тексты или большие батчи в тот же объем памяти с минимальной потерей качества.

Авторы multi-layer kv heads предлагают сделать еще один шаг в эту сторону и предлагают шарить kv между соседними слоями тоже. То есть мы разбиваем наши слои на блоки, например по 4 слоя. И в каждой группе из 4 слоёв только лишь первый слой считает kv, остальные используют только query.

Потеря качества хоть и небольшая, но достаточно заметная, но иногда приходится упихивать неупихиваемое в GPU и хорошо иметь больше способов делать tradeoffs.

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1764

View MORE
Open in Telegram


Telegram News

Date: |

Select “New Channel” Clear Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn.
from us


Telegram DL in NLP
FROM American