QUANT_PRUNE_DISTILL Telegram 171
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
[Статья] [Код]

Введение

Поиск архитектуры, способной сбросить трансформеры с пьедестала, по своей важности можно сравнить с поиском философского камня или высокотемпературного сверхпроводника. Время от времени появляются работы (S4, RWKV, RetNet), в которых предъявляют архитектуру конкурентную или превосходящую по эффективности/масштабируемости трансформер, но по какой-то причине научное сообщество и пользователи до сих пор сидят на трансформерах, и все самые высокопроизводительные foundation модели так или иначе зиждятся на self-attention.

Одна из наиболее интересных попыток предъявить альтернативу - была серия работ по state-space моделям (S4, H3, Hyena). Однако показав хорошее качество на ряде задач, связанных с обработкой последовательностей, аудио, они не стали сильны в общей задаче языкового моделирования.

В этой работе проанализировали недостатки и ограничения существующих state-space моделей и предложили модификацию, устраняющую или минимизирующую эти недостатки.
🔥2



tgoop.com/quant_prune_distill/171
Create:
Last Update:

Mamba: Linear-Time Sequence Modeling with Selective State Spaces
[Статья] [Код]

Введение

Поиск архитектуры, способной сбросить трансформеры с пьедестала, по своей важности можно сравнить с поиском философского камня или высокотемпературного сверхпроводника. Время от времени появляются работы (S4, RWKV, RetNet), в которых предъявляют архитектуру конкурентную или превосходящую по эффективности/масштабируемости трансформер, но по какой-то причине научное сообщество и пользователи до сих пор сидят на трансформерах, и все самые высокопроизводительные foundation модели так или иначе зиждятся на self-attention.

Одна из наиболее интересных попыток предъявить альтернативу - была серия работ по state-space моделям (S4, H3, Hyena). Однако показав хорошее качество на ряде задач, связанных с обработкой последовательностей, аудио, они не стали сильны в общей задаче языкового моделирования.

В этой работе проанализировали недостатки и ограничения существующих state-space моделей и предложили модификацию, устраняющую или минимизирующую эти недостатки.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/171

View MORE
Open in Telegram


Telegram News

Date: |

Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): How to create a business channel on Telegram? (Tutorial) The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously.
from us


Telegram КПД
FROM American