tgoop.com/quant_prune_distill/301
Last Update:
[ишшуя на гитхабе]
В webui накатили квантизованные версии недавно нашумевшей FLUX.1[dev].
1️⃣bnb nf4 (4 c небольшим бит на параметро)
2️⃣fp8 (если считать fp8 квантизацией)
В зависимости от железа (рассматривается случай GPU от Ampere и новее) и версий pytorch/cuda bnb nf4 быстрее от 1.3 до 4 раз. Так как модель довольно здоровая, 12B параметров, то трансфер памяти, по всей видимости играет существенную роль. Кроме того, после недавних обновлений bitsnandbytes (0.42-0.43) скорость матричных операций (bnb.matmul_4bit
) сильно выросла.
Кроме того, утверждается, что ошибка квантизации nf4 даже меньше (благодаря более адаптивной квантильной квантизации) чем у fp8 (e4m3fn/e5m2).
Далее пост содержит обсуждение хаков, как эффективно запускать FLUX на винде и примеры генераций.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/301