QUANT_PRUNE_DISTILL Telegram 145
Эксперименты

Обучают две модели:
1️⃣️️️️️ ADD-M c 860M параметров из Stable Diffusion v1.5 (для честного сравнения с бейзлайнами) / v2.1 (для ablation)
2️⃣️️️️️ADD-XL из SDXL.
Текстовый эмбеддинг для дискриминатора получают из CLIP-ViT-g-14 и картиночный эмбеддинг из DINOv2-ViT-L.

В качестве бейзлайнов выступают прогрессивная дистилляция SD, Latent Consistency Model, InstaFlow, OpenMuse и StyleGAN-T++ (реимплементация StyleGAN-T, достигающая даже более высоких метрик чем модель из исходной статьи и конкурентный GigaGAN). Сравнивают стандартные генеративные метрики - FID/CLIP score и пользовательские предпочтения по качеству изображений и соответствию запросу.

Как нетрудно догадаться, ADD разбивает конкурентные подходы в пух и прах.
Один шаг уже работает хорошо, а 4 шага для SDXL-Turbo бьют даже базовую SDXL с 50 шагами сэмплирования.

Примечателен ablation. Дистилляционный лосс по отдельности работает плохо, лучше всего работает взвешенная комбинация дистилляционного лосса и адверсариального лосса, но что любопытно и адверсариальный лосс по отдельности работает почти так же хорошо. Выбор инициализации для дискриминатора существенно влияет на качество, причем лучше всего себя показывает не самый большой ViT-Small с DINOv2 обучением. Обуславливание генератора немного улучшает качество. ADD-M лучше большей ADD-XL по FID, но хуже по CLIP score. Случайно инициализированный студент не способен обучиться до приемлемого качества. Результат итеративного расшумления сетью-учителем картинки вместо предсказания в один шаг в качестве таргета дистилляции не накидывает.

Вывод

Результаты генераций в 1, 2, 4 шага, вероятно черрипикнутые, выглядят неплохо. Подход сравнительно простой по сравнению с типичными пайплайнами дистилляции, при этом картинки остаются резкими и четкими. Однако за красоту и скорость инференса все же приходится платить определенную цену - снижение разнообразия генераций. По существу имеем некоторый trade-off между GAN и vanilla диффузионной моделью.
🔥2



tgoop.com/quant_prune_distill/145
Create:
Last Update:

Эксперименты

Обучают две модели:
1️⃣️️️️️ ADD-M c 860M параметров из Stable Diffusion v1.5 (для честного сравнения с бейзлайнами) / v2.1 (для ablation)
2️⃣️️️️️ADD-XL из SDXL.
Текстовый эмбеддинг для дискриминатора получают из CLIP-ViT-g-14 и картиночный эмбеддинг из DINOv2-ViT-L.

В качестве бейзлайнов выступают прогрессивная дистилляция SD, Latent Consistency Model, InstaFlow, OpenMuse и StyleGAN-T++ (реимплементация StyleGAN-T, достигающая даже более высоких метрик чем модель из исходной статьи и конкурентный GigaGAN). Сравнивают стандартные генеративные метрики - FID/CLIP score и пользовательские предпочтения по качеству изображений и соответствию запросу.

Как нетрудно догадаться, ADD разбивает конкурентные подходы в пух и прах.
Один шаг уже работает хорошо, а 4 шага для SDXL-Turbo бьют даже базовую SDXL с 50 шагами сэмплирования.

Примечателен ablation. Дистилляционный лосс по отдельности работает плохо, лучше всего работает взвешенная комбинация дистилляционного лосса и адверсариального лосса, но что любопытно и адверсариальный лосс по отдельности работает почти так же хорошо. Выбор инициализации для дискриминатора существенно влияет на качество, причем лучше всего себя показывает не самый большой ViT-Small с DINOv2 обучением. Обуславливание генератора немного улучшает качество. ADD-M лучше большей ADD-XL по FID, но хуже по CLIP score. Случайно инициализированный студент не способен обучиться до приемлемого качества. Результат итеративного расшумления сетью-учителем картинки вместо предсказания в один шаг в качестве таргета дистилляции не накидывает.

Вывод

Результаты генераций в 1, 2, 4 шага, вероятно черрипикнутые, выглядят неплохо. Подход сравнительно простой по сравнению с типичными пайплайнами дистилляции, при этом картинки остаются резкими и четкими. Однако за красоту и скорость инференса все же приходится платить определенную цену - снижение разнообразия генераций. По существу имеем некоторый trade-off между GAN и vanilla диффузионной моделью.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/145

View MORE
Open in Telegram


Telegram News

Date: |

Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Select “New Channel” Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you:
from us


Telegram КПД
FROM American