QUANT_PRUNE_DISTILL Telegram 458
Qwerky-72B and 32B : Training large attention free models, with only 8 GPU's
[Блог Пост]

‼️ Attention is NOT all you need ‼️

Убийца трансформеров, новая ступень эволюции архитектур 🤩!

Если вам зачем-то приспичило отказаться от Attention, то данный рецепт предлагает решение, которое позволит вам превратить трансформер, превратить трансформер в элегантную RWKV модель.

Процедура следующая:

🤩 Берете трансформер
🤩 Заменяете Attention на RWKV

1️⃣ Сначала пытаетесь добиться того, чтобы блок RWKV воспроизвел выход исходного трансформерного
2️⃣ Потом дистиллируете логиты исходной модели (обучая только RWKV)
3️⃣ Потом еще раз дистиллируете (разморозив все)
4️⃣ Дообучаете на более длинном контексте

Бюджет дистилляции - всего-то несколько сот лямов токенов.

Таким образом получаются:
- Qwerky-QwQ из Qwen/QwQ
- Qwerky-72B Qwen/Qwen-2.5-72B-Instruct


На некоторых бенчах сохраняют качество, где-то теряют до 5%. Но хоть как-то работает, и ладно. И даже, как заявляется, опережает не абы что, а GPT-3.5 turbo без единого Attention слоя.

8 GPU это не A100/H100, как вы могли подумать, а амудшные карточки с 192Gb VRAM.



tgoop.com/quant_prune_distill/458
Create:
Last Update:

Qwerky-72B and 32B : Training large attention free models, with only 8 GPU's
[Блог Пост]

‼️ Attention is NOT all you need ‼️

Убийца трансформеров, новая ступень эволюции архитектур 🤩!

Если вам зачем-то приспичило отказаться от Attention, то данный рецепт предлагает решение, которое позволит вам превратить трансформер, превратить трансформер в элегантную RWKV модель.

Процедура следующая:

🤩 Берете трансформер
🤩 Заменяете Attention на RWKV

1️⃣ Сначала пытаетесь добиться того, чтобы блок RWKV воспроизвел выход исходного трансформерного
2️⃣ Потом дистиллируете логиты исходной модели (обучая только RWKV)
3️⃣ Потом еще раз дистиллируете (разморозив все)
4️⃣ Дообучаете на более длинном контексте

Бюджет дистилляции - всего-то несколько сот лямов токенов.

Таким образом получаются:
- Qwerky-QwQ из Qwen/QwQ
- Qwerky-72B Qwen/Qwen-2.5-72B-Instruct


На некоторых бенчах сохраняют качество, где-то теряют до 5%. Но хоть как-то работает, и ладно. И даже, как заявляется, опережает не абы что, а GPT-3.5 turbo без единого Attention слоя.

8 GPU это не A100/H100, как вы могли подумать, а амудшные карточки с 192Gb VRAM.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/458

View MORE
Open in Telegram


Telegram News

Date: |

"Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. How to Create a Private or Public Channel on Telegram?
from us


Telegram КПД
FROM American