tgoop.com/quant_prune_distill/413
Last Update:
Эксперименты
Процедура обучения выглядит следующим образом:
1️⃣ Сначала дообучают RQ-VAE на собранных данных, чтобы улучшить качество реконструкций. Обучается только квантизатор, все остальное заморожено.
2️⃣ В качестве основы для VARSR берут предобученный на ImageNet class-conditional VAR из оригинальной статьи и дообучают на class-2-image генерацию на 3 классов на своем датасете.
3️⃣ После этого дообучают полученную модель на целевую Image Super Resolution задачу.
4️⃣ При обучении на ISR в качестве лосса используется взвешенная сумма кросс-энтропии по токенам и диффузионного лосса в рефайнере.
Полученную модель сравнивают с GAN-based и диффузионными подходами на стандартных SR-бенчмарках (DIV2K-Val, RealSR, DRealSR). VARSR и диффузия уступает GAN моделям по классическим метрикам - PSNR, SSIM, но лучше по более свежим MANIQA, СLIP-IQA, MUSIQ.
В качественных визуализациях VARSR более-менее реалистично восстанавливает изображения при жестких деградациях, в то время как альтернативные подходы заметно шакалят.
В Ablation Study показывают, что все компоненты важны и накидывают качество:
🌟 Обусловливание на LR изображение через Prefix работает лучше, чем ControlNet.
🌟 SA-RoPE полезен.
🌟 Diffusion Refiner улучшает метрики, хоть и не так сильно.
🌟 Image-Based CFG понижает SSIM, PSNR, но заметно накидывает в современных нейросетевых метриках.
По user-preference study VARSR лучше GANов и диффузий с Image Prior.
Существенным достоинством VAR является скорость работы, за счет того, что выход формируется за один проход через все масштабы, большинство из которых “почти бесплатные”. Стоит, однако, заметить, что шельмы не сравниваются с GANами и адверсариальными дистилляциями (AddSR) диффузионных моделей, которые будут по факту быстрее.
Вывод
Вполне успешная адаптация VAR к задаче Image SR c рядом нетривиальных архитектурных решений. Однако, процедура обучения содержит слишком много компонент и промежуточных этапов. Да и сравнение с дистиллами диффузионок для SR тактично опущено.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/413