КПД@quant_prune_distill P.238

КПД

Эксперименты

Подход валидируют на class-conditional генерации на ImageNet-1k в разрешении 256x256 и 512x512.

Если смотреть на графики FID на Figure 1, складывается впечатления, что вообще красота - победа c разгромным счетом на DiT-бейзлайнами. Однако, взгляд придирчивого читателя обнаружит некие нюансы 🧐. В таблице их лучшая модель генерирует изображение 256x256 за 1 секунду, а на графике будто бы за 0.3 сек. Если бахнуть StyleGAN-2 (StyleGAN-XL) на этот график, то те будут смотреться Парето-оптимальнее их модельки. Хотя о чем вообще базар: FID - мера оверфита под InceptionV3. По precision/recall неплохо, но не лучше всех.

На 512x512 тоже все солидно, опережают DiT, MaskGiT.

Далее показывают, что модель демонстрирует ярко выраженные scaling-laws, хорошую масштабируемость. Встает вопрос - а у чего нет scaling laws?

Визуально качество с размером модели тоже улучшается - малые модели генерируют дефектные изображения, а большие - уже вполне добротные.

Еще модель может в inpainting 🧑‍🎨, outpainting 👨‍🎨 и class-conditional editing 📝.

В ablation показывают следующее:
1️⃣ VAR парадигма рулит по сравнению с AR
2️⃣ AdaLN чутка накидывает по сравнению с unconditional LN
3️⃣ Top-k sampling тоже накидывает
4️⃣ CFG-накидывает. Хоть тут и не диффузия, но тоже можно определить его подобным образом.
5️⃣ Увеличение размера тоже накидывает.

Выводы

Прикольная и интересная идея, но непонятно, насколько масштабируется на более сложную задачу text-2-image диффузии. Есть опасение, что одношаговый алгоритм генерации будет страдать разнообразием по сравнению с современными диффузионными моделями. А может регулирование температуры сэмплирования даст разнообразие в той степени, какой оно нужно для целевого приложения.

🤔6👍1

www.tgoop.com/quant_prune_distill/238

985 viewsedited Apr 8, 2024 at 21:39

tgoop.com/quant_prune_distill/238

Create: 2024-04-08
Last Update: 2025-09-08 18:43:55

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/238

Telegram News

Эксперименты