tgoop.com/quant_prune_distill/238
Last Update:
Эксперименты
Подход валидируют на class-conditional генерации на ImageNet-1k в разрешении 256x256 и 512x512.
Если смотреть на графики FID на Figure 1, складывается впечатления, что вообще красота - победа c разгромным счетом на DiT-бейзлайнами. Однако, взгляд придирчивого читателя обнаружит некие нюансы 🧐. В таблице их лучшая модель генерирует изображение 256x256 за 1 секунду, а на графике будто бы за 0.3 сек. Если бахнуть StyleGAN-2 (StyleGAN-XL) на этот график, то те будут смотреться Парето-оптимальнее их модельки. Хотя о чем вообще базар: FID - мера оверфита под InceptionV3. По precision/recall неплохо, но не лучше всех.
На 512x512 тоже все солидно, опережают DiT, MaskGiT.
Далее показывают, что модель демонстрирует ярко выраженные scaling-laws, хорошую масштабируемость. Встает вопрос - а у чего нет scaling laws?
Визуально качество с размером модели тоже улучшается - малые модели генерируют дефектные изображения, а большие - уже вполне добротные.
Еще модель может в inpainting 🧑🎨, outpainting 👨🎨 и class-conditional editing 📝.
В ablation показывают следующее:
1️⃣ VAR парадигма рулит по сравнению с AR
2️⃣ AdaLN чутка накидывает по сравнению с unconditional LN
3️⃣ Top-k sampling тоже накидывает
4️⃣ CFG-накидывает. Хоть тут и не диффузия, но тоже можно определить его подобным образом.
5️⃣ Увеличение размера тоже накидывает.
Выводы
Прикольная и интересная идея, но непонятно, насколько масштабируется на более сложную задачу text-2-image диффузии. Есть опасение, что одношаговый алгоритм генерации будет страдать разнообразием по сравнению с современными диффузионными моделями. А может регулирование температуры сэмплирования даст разнообразие в той степени, какой оно нужно для целевого приложения.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/238