tgoop.com/quant_prune_distill/467
Create:
Last Update:
Last Update:
Релиз несколько затянулся ("Мыши плакали, кололись, но продолжали грызть кактус"), но в итоге допинали, как появилась полноценная поддержка в vLLM compressed_tensors
, релиз квантизованных GPTQ в 4 бита моделей DeepSeek-R1 и самого кода квантизации моделей.
Речь пока не идет о том, что можно запустить у себя на калькуляторе, и даже на consumer-grade GPU, но в одну ноду (8x A100/H100
) влезает уже без приседаний и с контекстом, достаточным для reasoning задач а-ля AIME, GPQA, MATH500.
Модели на 🤗
-🎯 DeepSeek-R1-GPTQ-4b-128g (квантизуются все слои в трансформерных блоках)
-🎯 DeepSeek-R1-GPTQ-4b-128g-experts (квантизуются только non-shared experts)
Код 👨💻 квантизации
- MoE-Quant
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/467