КПД@quant_prune_distill P.467

КПД

Релиз несколько затянулся ("Мыши плакали, кололись, но продолжали грызть кактус"), но в итоге допинали, как появилась полноценная поддержка в vLLM compressed_tensors, релиз квантизованных GPTQ в 4 бита моделей DeepSeek-R1 и самого кода квантизации моделей.

Речь пока не идет о том, что можно запустить у себя на калькуляторе, и даже на consumer-grade GPU, но в одну ноду (8x A100/H100) влезает уже без приседаний и с контекстом, достаточным для reasoning задач а-ля AIME, GPQA, MATH500.

Модели на 🤗
-🎯 DeepSeek-R1-GPTQ-4b-128g (квантизуются все слои в трансформерных блоках)
-🎯 DeepSeek-R1-GPTQ-4b-128g-experts (квантизуются только non-shared experts)

Код 👨‍💻 квантизации
- MoE-Quant

🔥24👍8

www.tgoop.com/quant_prune_distill/467

2.4K viewsedited Apr 8 at 07:56

tgoop.com/quant_prune_distill/467

Create: 2025-04-08
Last Update: 2025-08-24 13:35:46

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/467

Telegram News

Релиз несколько затянулся ("Мыши плакали