QUANT_PRUNE_DISTILL Telegram 148
Striped Hyena-7b
[Блог] [Модели (Hessian/Nous)]

Народ уже на протяжении долгого времени занимается поиском альтернативы архитектуре трансформера. Однако многочисленные попытки и заявления про рождение “убийцы трансформеров” выглядели недостаточно убедительными, ибо полученные модели сильно не дотягивали до SOTA моделей.

И команда из Together.AI совместно с HazyResearch выпустили StripedHyena-7B, которая оказывается достойным конкурентом современным LM уровня Llama-2 и Mistral-7b.

Метод

Архитектура модели составлена в основном из эффективных сверточных блоков, умеющих эффективно обрабатывать длинный контекст - FlashFFTConv, и некоторого количества стандартных Attention блоков. Авторы показывают, что смесь attention и conv блоков в соотношении 25:75 достигает наилучшего качества при заданном размере модели и бюджете обучения. Одни лишь сверки без attention работают однако хуже, чем просто attention.

Кроме того, в свертки привносят multi-head из attention и утверждается, что это накидывает (grouped convolution)?

Эксперименты

Together.AI выпустили две модели - Hessian (базовая модель), и Nous (instruction finetuned). SH-7B опережает Llama-2-7b и слегка уступает Mistral-7b на OpenLLM бенчмарке, Nous версия лучше файнтьюна Llama-2-13b-OpenHermes, но слегка слабее похожего файнтьюна для Мистрали.

На длинных последовательностях (128k токенов) предложенная архитектура в 1.5 раза быстрее, чем оптимизированный трансформер с FlashAttention-2 и Grouped Query Attention. Расход памяти тоже уменьшается до 2 раз на длинном контексте. Кроме того. модель не проседает при увеличении контекста в 2 раза по сравнению с самым большим, увиденным во время обучения (а если в 4/8 раз?).

Вывод

Неплохая попытка скинуть трансформеры с пьедестала больших языковых моделей. Однако наличие некоторой доли attention блоков в конечной архитектуре все же делает пока Multihead Attention незаменимой компонентой в дизайне LLM.
👍2



tgoop.com/quant_prune_distill/148
Create:
Last Update:

Striped Hyena-7b
[Блог] [Модели (Hessian/Nous)]

Народ уже на протяжении долгого времени занимается поиском альтернативы архитектуре трансформера. Однако многочисленные попытки и заявления про рождение “убийцы трансформеров” выглядели недостаточно убедительными, ибо полученные модели сильно не дотягивали до SOTA моделей.

И команда из Together.AI совместно с HazyResearch выпустили StripedHyena-7B, которая оказывается достойным конкурентом современным LM уровня Llama-2 и Mistral-7b.

Метод

Архитектура модели составлена в основном из эффективных сверточных блоков, умеющих эффективно обрабатывать длинный контекст - FlashFFTConv, и некоторого количества стандартных Attention блоков. Авторы показывают, что смесь attention и conv блоков в соотношении 25:75 достигает наилучшего качества при заданном размере модели и бюджете обучения. Одни лишь сверки без attention работают однако хуже, чем просто attention.

Кроме того, в свертки привносят multi-head из attention и утверждается, что это накидывает (grouped convolution)?

Эксперименты

Together.AI выпустили две модели - Hessian (базовая модель), и Nous (instruction finetuned). SH-7B опережает Llama-2-7b и слегка уступает Mistral-7b на OpenLLM бенчмарке, Nous версия лучше файнтьюна Llama-2-13b-OpenHermes, но слегка слабее похожего файнтьюна для Мистрали.

На длинных последовательностях (128k токенов) предложенная архитектура в 1.5 раза быстрее, чем оптимизированный трансформер с FlashAttention-2 и Grouped Query Attention. Расход памяти тоже уменьшается до 2 раз на длинном контексте. Кроме того. модель не проседает при увеличении контекста в 2 раза по сравнению с самым большим, увиденным во время обучения (а если в 4/8 раз?).

Вывод

Неплохая попытка скинуть трансформеры с пьедестала больших языковых моделей. Однако наличие некоторой доли attention блоков в конечной архитектуре все же делает пока Multihead Attention незаменимой компонентой в дизайне LLM.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/148

View MORE
Open in Telegram


Telegram News

Date: |

Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Invite up to 200 users from your contacts to join your channel Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police.
from us


Telegram КПД
FROM American