КПД@quant_prune_distill P.90

КПД

Retentive Network: A Successor to Transformer for Large Language Models
[Статья][Код]

Каждый исследователь или практик алкает следующих качеств от архитектуры нейронной сети:
1️⃣ Эффективное обучение
2️⃣ Хорошее качество
3️⃣ Дешевый инференс

Архитектура Трансформер, доминирующая во многих областях и приложениях Deep Learning, удовлетворяет первым двух из требований, но, к сожалению, довольно тяжеловесна и прожорлива до вычислений.

Множество работ предлагали различные альтернативы и приближения attention, но ни один из них не стал общеупотребимым на практике. Аналогично, варианты с внедрением рекуррентных механизмов и state-space моделей (S4, H3, Hyena) хоть и получили признание, но не составили полноценной конкуренции attention.

И в этой статье авторы делают довольно громкое заявление о том, что они смогли воплотить невозможный треугольник в реальность, создав архитектуру, обладающую всеми желаемыми аттрибутами - Retentive Network (RetNet). Все прошлые архитектуры можно теперь со спокойной душой отправить на свалку истории.

👍4

www.tgoop.com/quant_prune_distill/90

200 viewsedited Aug 1, 2023 at 12:31

tgoop.com/quant_prune_distill/90

Create: 2023-08-01
Last Update: 2025-08-28 08:39:25

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/90

Telegram News

Retentive Network: A Successor to Transformer for Large Language Models