КПД@quant_prune_distill P.106

КПД

Instaflow-0.9B(1.7B) в 30 (24) раза быстрее базовой StableDiffusion, хоть и с некоторой потерей в качестве (13.10(11.83) против 9.62 на замерах FID-30k на MS COCO 14). При том же бюджете на время, модель выдает сопоставимые метрики с GANами (превосходя StyleGAN-T, но проигрывая GigaGAN).

Потом авторы сравнивают генерации StableDiffusion и Instaflow на разном количестве шагов генерации, и StableDiffusion ожидаемо дает низкокачественные и мыльные картинки на малом количестве шагов, а Instaflow - вполне приемлемого качества.

Если смотреть на конкретные пиксели при отдельности, то в StableDiffusion их значение меняется по сложным траекториям, а у RecitifiedFlow почти по прямой.

Кроме того, мало чувствительна к guidance scale, что безусловный плюс и позволяет сэкономить по памяти (так как не требуется дополнительно прогонять unconditioned расшумление в classifier-free guidance) . Авторы статьи утверждают, что не имеют обьяснения данному эффекту. Вероятно, classifier-free guidance нужен, чтобы не сбиться с траектории генерации, а так как у нас теперть прямые траектории, то и слететь с них не так просто.

Вдобавок, полученная модель дает красивые интерполяции в латентном пространстве, по всей видимости, опять из-за выпрямленных траекторий генерации.

Instaflow из коробки комбинируется с Refiner и SuperResolution в SDXL, и полученные картинки выглядят вполне себе сносно.

Вся процедура обучения занимает 108 для Instaflow-0.9B и 130 для Instaflow-1.7B A100 GPU дней, соответственно, что не так много по нынешним меркам (StableDiffusion v1.4 обучалась 6250 A100 GPU дней). Обучение RectifiedFlow и дистиллированной модели не успело сойтись до конца, так что при более длительном обучении качество может еще возрасти.

🔥1

www.tgoop.com/quant_prune_distill/106

290 viewsedited Sep 14, 2023 at 14:36

tgoop.com/quant_prune_distill/106

Create: 2023-09-14
Last Update: 2025-08-27 23:53:44

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/106

Telegram News

Instaflow-0.9B(1.7B) в 30 (24) раза быстрее базовой StableDiffusion