КПД@quant_prune_distill P.148

КПД

Striped Hyena-7b
[Блог] [Модели (Hessian/Nous)]

Народ уже на протяжении долгого времени занимается поиском альтернативы архитектуре трансформера. Однако многочисленные попытки и заявления про рождение “убийцы трансформеров” выглядели недостаточно убедительными, ибо полученные модели сильно не дотягивали до SOTA моделей.

И команда из Together.AI совместно с HazyResearch выпустили StripedHyena-7B, которая оказывается достойным конкурентом современным LM уровня Llama-2 и Mistral-7b.

Метод

Архитектура модели составлена в основном из эффективных сверточных блоков, умеющих эффективно обрабатывать длинный контекст - FlashFFTConv, и некоторого количества стандартных Attention блоков. Авторы показывают, что смесь attention и conv блоков в соотношении 25:75 достигает наилучшего качества при заданном размере модели и бюджете обучения. Одни лишь сверки без attention работают однако хуже, чем просто attention.

Кроме того, в свертки привносят multi-head из attention и утверждается, что это накидывает (grouped convolution)?

Эксперименты

Together.AI выпустили две модели - Hessian (базовая модель), и Nous (instruction finetuned). SH-7B опережает Llama-2-7b и слегка уступает Mistral-7b на OpenLLM бенчмарке, Nous версия лучше файнтьюна Llama-2-13b-OpenHermes, но слегка слабее похожего файнтьюна для Мистрали.

На длинных последовательностях (128k токенов) предложенная архитектура в 1.5 раза быстрее, чем оптимизированный трансформер с FlashAttention-2 и Grouped Query Attention. Расход памяти тоже уменьшается до 2 раз на длинном контексте. Кроме того. модель не проседает при увеличении контекста в 2 раза по сравнению с самым большим, увиденным во время обучения (а если в 4/8 раз?).

Вывод

Неплохая попытка скинуть трансформеры с пьедестала больших языковых моделей. Однако наличие некоторой доли attention блоков в конечной архитектуре все же делает пока Multihead Attention незаменимой компонентой в дизайне LLM.

👍2

www.tgoop.com/quant_prune_distill/148

640 viewsedited Dec 10, 2023 at 20:28

tgoop.com/quant_prune_distill/148

Create: 2023-12-10
Last Update: 2025-08-27 08:54:25

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/148

Telegram News

Striped Hyena-7b