QUANT_PRUNE_DISTILL Telegram 413
Эксперименты

Процедура обучения выглядит следующим образом:

1️⃣ Сначала дообучают RQ-VAE на собранных данных, чтобы улучшить качество реконструкций. Обучается только квантизатор, все остальное заморожено.
2️⃣ В качестве основы для VARSR берут предобученный на ImageNet class-conditional VAR из оригинальной статьи и дообучают на class-2-image генерацию на 3 классов на своем датасете.
3️⃣ После этого дообучают полученную модель на целевую Image Super Resolution задачу.
4️⃣ При обучении на ISR в качестве лосса используется взвешенная сумма кросс-энтропии по токенам и диффузионного лосса в рефайнере.

Полученную модель сравнивают с GAN-based и диффузионными подходами на стандартных SR-бенчмарках (DIV2K-Val, RealSR, DRealSR). VARSR и диффузия уступает GAN моделям по классическим метрикам - PSNR, SSIM, но лучше по более свежим MANIQA, СLIP-IQA, MUSIQ.

В качественных визуализациях VARSR более-менее реалистично восстанавливает изображения при жестких деградациях, в то время как альтернативные подходы заметно шакалят.

В Ablation Study показывают, что все компоненты важны и накидывают качество:
🌟 Обусловливание на LR изображение через Prefix работает лучше, чем ControlNet.
🌟 SA-RoPE полезен.
🌟 Diffusion Refiner улучшает метрики, хоть и не так сильно.
🌟 Image-Based CFG понижает SSIM, PSNR, но заметно накидывает в современных нейросетевых метриках.

По user-preference study VARSR лучше GANов и диффузий с Image Prior.

Существенным достоинством VAR является скорость работы, за счет того, что выход формируется за один проход через все масштабы, большинство из которых “почти бесплатные”. Стоит, однако, заметить, что шельмы не сравниваются с GANами и адверсариальными дистилляциями (AddSR) диффузионных моделей, которые будут по факту быстрее.

Вывод

Вполне успешная адаптация VAR к задаче Image SR c рядом нетривиальных архитектурных решений. Однако, процедура обучения содержит слишком много компонент и промежуточных этапов. Да и сравнение с дистиллами диффузионок для SR тактично опущено.
👍1



tgoop.com/quant_prune_distill/413
Create:
Last Update:

Эксперименты

Процедура обучения выглядит следующим образом:

1️⃣ Сначала дообучают RQ-VAE на собранных данных, чтобы улучшить качество реконструкций. Обучается только квантизатор, все остальное заморожено.
2️⃣ В качестве основы для VARSR берут предобученный на ImageNet class-conditional VAR из оригинальной статьи и дообучают на class-2-image генерацию на 3 классов на своем датасете.
3️⃣ После этого дообучают полученную модель на целевую Image Super Resolution задачу.
4️⃣ При обучении на ISR в качестве лосса используется взвешенная сумма кросс-энтропии по токенам и диффузионного лосса в рефайнере.

Полученную модель сравнивают с GAN-based и диффузионными подходами на стандартных SR-бенчмарках (DIV2K-Val, RealSR, DRealSR). VARSR и диффузия уступает GAN моделям по классическим метрикам - PSNR, SSIM, но лучше по более свежим MANIQA, СLIP-IQA, MUSIQ.

В качественных визуализациях VARSR более-менее реалистично восстанавливает изображения при жестких деградациях, в то время как альтернативные подходы заметно шакалят.

В Ablation Study показывают, что все компоненты важны и накидывают качество:
🌟 Обусловливание на LR изображение через Prefix работает лучше, чем ControlNet.
🌟 SA-RoPE полезен.
🌟 Diffusion Refiner улучшает метрики, хоть и не так сильно.
🌟 Image-Based CFG понижает SSIM, PSNR, но заметно накидывает в современных нейросетевых метриках.

По user-preference study VARSR лучше GANов и диффузий с Image Prior.

Существенным достоинством VAR является скорость работы, за счет того, что выход формируется за один проход через все масштабы, большинство из которых “почти бесплатные”. Стоит, однако, заметить, что шельмы не сравниваются с GANами и адверсариальными дистилляциями (AddSR) диффузионных моделей, которые будут по факту быстрее.

Вывод

Вполне успешная адаптация VAR к задаче Image SR c рядом нетривиальных архитектурных решений. Однако, процедура обучения содержит слишком много компонент и промежуточных этапов. Да и сравнение с дистиллами диффузионок для SR тактично опущено.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/413

View MORE
Open in Telegram


Telegram News

Date: |

The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” 3How to create a Telegram channel? Telegram Android app: Open the chats list, click the menu icon and select “New Channel.”
from us


Telegram КПД
FROM American