tgoop.com/quant_prune_distill/171
Last Update:
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
[Статья] [Код]
Введение
Поиск архитектуры, способной сбросить трансформеры с пьедестала, по своей важности можно сравнить с поиском философского камня или высокотемпературного сверхпроводника. Время от времени появляются работы (S4, RWKV, RetNet), в которых предъявляют архитектуру конкурентную или превосходящую по эффективности/масштабируемости трансформер, но по какой-то причине научное сообщество и пользователи до сих пор сидят на трансформерах, и все самые высокопроизводительные foundation модели так или иначе зиждятся на self-attention.
Одна из наиболее интересных попыток предъявить альтернативу - была серия работ по state-space моделям (S4, H3, Hyena). Однако показав хорошее качество на ряде задач, связанных с обработкой последовательностей, аудио, они не стали сильны в общей задаче языкового моделирования.
В этой работе проанализировали недостатки и ограничения существующих state-space моделей и предложили модификацию, устраняющую или минимизирующую эти недостатки.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/171