tgoop.com/quant_prune_distill/406
Create:
Last Update:
Last Update:
[Model page]
DeepSeek 🐳 выкатили пару часов назад на лицехватах 🤗 веса DeepSeek-R1 в публичный доступ!
Напомню, что это Reasoning модель, под цепоцки рассуждений а-ля o1, o1-mini, o3.
В модели 685B параметров и веса выложены в fp8-E4M3.
Архитектура почти идентична DeepSeek-V3.
Так что, счастливые обладатели 8+1 H100, развлекайтесь на здоровье)
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/406