QUANT_PRUNE_DISTILL Telegram 458
Qwerky-72B and 32B : Training large attention free models, with only 8 GPU's
[Блог Пост]

‼️ Attention is NOT all you need ‼️

Убийца трансформеров, новая ступень эволюции архитектур 🤩!

Если вам зачем-то приспичило отказаться от Attention, то данный рецепт предлагает решение, которое позволит вам превратить трансформер, превратить трансформер в элегантную RWKV модель.

Процедура следующая:

🤩 Берете трансформер
🤩 Заменяете Attention на RWKV

1️⃣ Сначала пытаетесь добиться того, чтобы блок RWKV воспроизвел выход исходного трансформерного
2️⃣ Потом дистиллируете логиты исходной модели (обучая только RWKV)
3️⃣ Потом еще раз дистиллируете (разморозив все)
4️⃣ Дообучаете на более длинном контексте

Бюджет дистилляции - всего-то несколько сот лямов токенов.

Таким образом получаются:
- Qwerky-QwQ из Qwen/QwQ
- Qwerky-72B Qwen/Qwen-2.5-72B-Instruct


На некоторых бенчах сохраняют качество, где-то теряют до 5%. Но хоть как-то работает, и ладно. И даже, как заявляется, опережает не абы что, а GPT-3.5 turbo без единого Attention слоя.

8 GPU это не A100/H100, как вы могли подумать, а амудшные карточки с 192Gb VRAM.
🔥18😁3👍2



tgoop.com/quant_prune_distill/458
Create:
Last Update:

Qwerky-72B and 32B : Training large attention free models, with only 8 GPU's
[Блог Пост]

‼️ Attention is NOT all you need ‼️

Убийца трансформеров, новая ступень эволюции архитектур 🤩!

Если вам зачем-то приспичило отказаться от Attention, то данный рецепт предлагает решение, которое позволит вам превратить трансформер, превратить трансформер в элегантную RWKV модель.

Процедура следующая:

🤩 Берете трансформер
🤩 Заменяете Attention на RWKV

1️⃣ Сначала пытаетесь добиться того, чтобы блок RWKV воспроизвел выход исходного трансформерного
2️⃣ Потом дистиллируете логиты исходной модели (обучая только RWKV)
3️⃣ Потом еще раз дистиллируете (разморозив все)
4️⃣ Дообучаете на более длинном контексте

Бюджет дистилляции - всего-то несколько сот лямов токенов.

Таким образом получаются:
- Qwerky-QwQ из Qwen/QwQ
- Qwerky-72B Qwen/Qwen-2.5-72B-Instruct


На некоторых бенчах сохраняют качество, где-то теряют до 5%. Но хоть как-то работает, и ладно. И даже, как заявляется, опережает не абы что, а GPT-3.5 turbo без единого Attention слоя.

8 GPU это не A100/H100, как вы могли подумать, а амудшные карточки с 192Gb VRAM.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/458

View MORE
Open in Telegram


Telegram News

Date: |

Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. To delete a channel with over 1,000 subscribers, you need to contact user support
from us


Telegram КПД
FROM American