tgoop.com/quant_prune_distill/148
Last Update:
Striped Hyena-7b
[Блог] [Модели (Hessian/Nous)]
Народ уже на протяжении долгого времени занимается поиском альтернативы архитектуре трансформера. Однако многочисленные попытки и заявления про рождение “убийцы трансформеров” выглядели недостаточно убедительными, ибо полученные модели сильно не дотягивали до SOTA моделей.
И команда из Together.AI совместно с HazyResearch выпустили StripedHyena-7B, которая оказывается достойным конкурентом современным LM уровня Llama-2 и Mistral-7b.
Метод
Архитектура модели составлена в основном из эффективных сверточных блоков, умеющих эффективно обрабатывать длинный контекст - FlashFFTConv, и некоторого количества стандартных Attention блоков. Авторы показывают, что смесь attention и conv блоков в соотношении 25:75 достигает наилучшего качества при заданном размере модели и бюджете обучения. Одни лишь сверки без attention работают однако хуже, чем просто attention.
Кроме того, в свертки привносят multi-head из attention и утверждается, что это накидывает (grouped convolution)?
Эксперименты
Together.AI выпустили две модели - Hessian (базовая модель), и Nous (instruction finetuned). SH-7B опережает Llama-2-7b и слегка уступает Mistral-7b на OpenLLM бенчмарке, Nous версия лучше файнтьюна Llama-2-13b-OpenHermes, но слегка слабее похожего файнтьюна для Мистрали.
На длинных последовательностях (128k токенов) предложенная архитектура в 1.5 раза быстрее, чем оптимизированный трансформер с FlashAttention-2 и Grouped Query Attention. Расход памяти тоже уменьшается до 2 раз на длинном контексте. Кроме того. модель не проседает при увеличении контекста в 2 раза по сравнению с самым большим, увиденным во время обучения (а если в 4/8 раз?).
Вывод
Неплохая попытка скинуть трансформеры с пьедестала больших языковых моделей. Однако наличие некоторой доли attention блоков в конечной архитектуре все же делает пока Multihead Attention незаменимой компонентой в дизайне LLM.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/148