tgoop.com/quant_prune_distill/458
Last Update:
Qwerky-72B and 32B : Training large attention free models, with only 8 GPU's
[Блог Пост]
‼️ Attention is NOT all you need ‼️
Убийца трансформеров, новая ступень эволюции архитектур 🤩!
Если вам зачем-то приспичило отказаться от Attention, то данный рецепт предлагает решение, которое позволит вам превратить трансформер, превратить трансформер в элегантную RWKV модель.
Процедура следующая:
🤩 Берете трансформер
🤩 Заменяете Attention на RWKV
1️⃣ Сначала пытаетесь добиться того, чтобы блок RWKV воспроизвел выход исходного трансформерного
2️⃣ Потом дистиллируете логиты исходной модели (обучая только RWKV)
3️⃣ Потом еще раз дистиллируете (разморозив все)
4️⃣ Дообучаете на более длинном контексте
Бюджет дистилляции - всего-то несколько сот лямов токенов.
Таким образом получаются:- Qwerky-QwQ из Qwen/QwQ
- Qwerky-72B Qwen/Qwen-2.5-72B-Instruct
На некоторых бенчах сохраняют качество, где-то теряют до 5%. Но хоть как-то работает, и ладно. И даже, как заявляется, опережает не абы что, а GPT-3.5 turbo без единого Attention слоя.
8 GPU это не A100/H100, как вы могли подумать, а амудшные карточки с 192Gb VRAM.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/458