tgoop.com/quant_prune_distill/145
Last Update:
Эксперименты
Обучают две модели:
1️⃣️️️️️ ADD-M c 860M параметров из Stable Diffusion v1.5 (для честного сравнения с бейзлайнами) / v2.1 (для ablation)
2️⃣️️️️️ADD-XL из SDXL.
Текстовый эмбеддинг для дискриминатора получают из CLIP-ViT-g-14 и картиночный эмбеддинг из DINOv2-ViT-L.
В качестве бейзлайнов выступают прогрессивная дистилляция SD, Latent Consistency Model, InstaFlow, OpenMuse и StyleGAN-T++ (реимплементация StyleGAN-T, достигающая даже более высоких метрик чем модель из исходной статьи и конкурентный GigaGAN). Сравнивают стандартные генеративные метрики - FID/CLIP score и пользовательские предпочтения по качеству изображений и соответствию запросу.
Как нетрудно догадаться, ADD разбивает конкурентные подходы в пух и прах.
Один шаг уже работает хорошо, а 4 шага для SDXL-Turbo бьют даже базовую SDXL с 50 шагами сэмплирования.
Примечателен ablation. Дистилляционный лосс по отдельности работает плохо, лучше всего работает взвешенная комбинация дистилляционного лосса и адверсариального лосса, но что любопытно и адверсариальный лосс по отдельности работает почти так же хорошо. Выбор инициализации для дискриминатора существенно влияет на качество, причем лучше всего себя показывает не самый большой ViT-Small с DINOv2 обучением. Обуславливание генератора немного улучшает качество. ADD-M лучше большей ADD-XL по FID, но хуже по CLIP score. Случайно инициализированный студент не способен обучиться до приемлемого качества. Результат итеративного расшумления сетью-учителем картинки вместо предсказания в один шаг в качестве таргета дистилляции не накидывает.
Вывод
Результаты генераций в 1, 2, 4 шага, вероятно черрипикнутые, выглядят неплохо. Подход сравнительно простой по сравнению с типичными пайплайнами дистилляции, при этом картинки остаются резкими и четкими. Однако за красоту и скорость инференса все же приходится платить определенную цену - снижение разнообразия генераций. По существу имеем некоторый trade-off между GAN и vanilla диффузионной моделью.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/145