tgoop.com/quant_prune_distill/106
Last Update:
Instaflow-0.9B(1.7B) в 30 (24) раза быстрее базовой StableDiffusion, хоть и с некоторой потерей в качестве (13.10(11.83) против 9.62 на замерах FID-30k на MS COCO 14). При том же бюджете на время, модель выдает сопоставимые метрики с GANами (превосходя StyleGAN-T, но проигрывая GigaGAN).
Потом авторы сравнивают генерации StableDiffusion и Instaflow на разном количестве шагов генерации, и StableDiffusion ожидаемо дает низкокачественные и мыльные картинки на малом количестве шагов, а Instaflow - вполне приемлемого качества.
Если смотреть на конкретные пиксели при отдельности, то в StableDiffusion их значение меняется по сложным траекториям, а у RecitifiedFlow почти по прямой.
Кроме того, мало чувствительна к guidance scale, что безусловный плюс и позволяет сэкономить по памяти (так как не требуется дополнительно прогонять unconditioned расшумление в classifier-free guidance) . Авторы статьи утверждают, что не имеют обьяснения данному эффекту. Вероятно, classifier-free guidance нужен, чтобы не сбиться с траектории генерации, а так как у нас теперть прямые траектории, то и слететь с них не так просто.
Вдобавок, полученная модель дает красивые интерполяции в латентном пространстве, по всей видимости, опять из-за выпрямленных траекторий генерации.
Instaflow из коробки комбинируется с Refiner и SuperResolution в SDXL, и полученные картинки выглядят вполне себе сносно.
Вся процедура обучения занимает 108 для Instaflow-0.9B и 130 для Instaflow-1.7B A100 GPU дней, соответственно, что не так много по нынешним меркам (StableDiffusion v1.4 обучалась 6250 A100 GPU дней). Обучение RectifiedFlow и дистиллированной модели не успело сойтись до конца, так что при более длительном обучении качество может еще возрасти.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/106