КПД@quant_prune_distill P.247

КПД

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
[Статья][Очередная статья от гугла без кода]

В попытках найти эффективную альтернативу стандартному механизму внимания в трансфромере человечество перевело не одни джунгли в Амазонии, выбросило тучу CO2. За последние годы было предложено множество интересных механизмов эффективеого attention, state-space модели, и переосмыслены рекуррентные модели, но все подходы так или иначе уступали в выразительности первородному трансформеру.

И группа из Google предложила очередную модификацию внимания, способную работать с длинным контекстом с асимптотической линейной сложностью по вычислениям и компактной памятью, не зависящей от длины.

Метод

За основу берут еще старый добрый Transformer-XL, который считает внимание в пределах некоторого сегмента фиксированного размера. Однако, ограниченность такого подхода в том, что k, v кэши считаются только для последнего сегмента, потому нет возможности учитывать контекст с прошлых окон, и суммарный контекст ограничен размером сегмента на глубину сети.

В данной работе предложили привнести рекуррентность в Transformer-XL и поддерживают два состояния памяти:

1️⃣ M - размера IR d_key ×d_value в числителе
2️⃣ z - размера IR dkey в знаменателе

И некая комбинация, составленная из этих сущностей и Query в текущем сегменте выступает в качестве одного из членов в итоговой формуле attention, которая будет определена чуть ниже.

Состояние M обновляется после каждого сегмента через некоторую формулу с внешним произведением key, valuе в текущем сегменте. А z - через сумму от ключей, к которым применили функцию активации (ELU + 1), в данном сегменте (т.е z - является по существу скользящей суммой).

Итоговый контекст получается как взвешенная сумма локального attention в данном окне и полученного выше контекста. Относительный вес каждого слагаемого получается из обучаемого скаляра (отдельного для каждой головы внимания).

Эксперименты

Метод валидируют на бенчмарках по языковому моделированию с длинным контекстом (PG-19, arXiv-math). passkey retrieval и суммаризации книг (500k контекста).

В первом эксперименте берут трансформер с 12 слоями и hidden_dim =1024.
По перплексии метод заметно опережает конкурентные подходы (Transformer-XL, Memorizing Transformers), при этом имея значительно меньшее потребление памяти.

Infini-Transformer c контекстом вплоть до 1M токенов.

На BookSum Infini-Transformer так же бьет BART и Primera, и обе с опцией (+ Unlimiformer), будто бы существенно, но не радикально.

Выводы

Идея объединить локальное контекстное окно с рекуррентной памятью не выглядит принципиально новой 👨‍🦳. Экспериментальная валидация в статье недостаточна, не хватает очевидного сравнения с теми же state-space моделями. Как мне кажется, предложенный подход вряд ли сможет успешно решать с хорошей точность задачи, требующие селективности и способности запоминать несколько фактов одновременно из далекого прошлого, разнесенных по времени с произвольными интервалами между ними.

🤔8👍4

www.tgoop.com/quant_prune_distill/247

3.62K viewsApr 17, 2024 at 08:13

tgoop.com/quant_prune_distill/247

Create: 2024-04-17
Last Update: 2025-09-09 00:16:31

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/247

Telegram News

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention