КПД@quant_prune_distill P.452

КПД

Эксперименты

Предложенный метод дистилляции валидируется на моделях семейства SD3.5 - Medium и Large. Для оценки качества смотрим как на классические метрики FID/CLIP/ImageReward/PickScore на COCO/MJHQ-30k, так и пользовательские предпочтения.

Процедура обучения длится примерно 5к итераций (все на одной A100 ноде). Для малошагового генератора и fake модели из DMD2 обучаем LoRA адаптеры (т.е PEFTа вполне достаточно).

Для 4-шагового сэмплирования используется следующая последовательность разрешений: [256, 384, 512, 640, 768, 1024]
Для 6-шагового сэмплирования используется следующая последовательность разрешений: [256, 512, 768, 1024]

Шаги сэмплирования в расписании подбираются специально так, чтобы соответствовать моменту возникновения заданных частот для данного разрешения.

Scale-wise диффузия практически не просаживается по качеству по сравнению с генерацией в фиксированном (конечном) разрешении. При этом при фиксированном бюджете генерации Scale-wise строго лучше (4-шаговая Scale-Wise против 2-шаговой Full-scale).

По большинству метрик SwD не проседает по сравнению с исходной моделью, за исключением FID (за счет потери разнообразия). По user-preference паритет по релевантности / дефектам, и некоторое даже улучшение по эстетике/комплексности. В том числе и бьем Switti (нашу прошлую работу про Scale-wise авторегрессию).

SwD позволяет выдавать почти 6 картинок в секунду для SD3.5-Medium и 2.5 для SD3.5-Large (при генерации с батчом 8).

В ablation показываем, что компоненты метода важны:
⚡️Обучение на синтетике
⚡️Правильно подобранное расписание шума
⚡️Адаптация модели под каждый скейл
⚡️PDM лосс очень важен
⚡️Замена L2 лосса на более сложный kernel (RBF) между признаками учителя и студента не дает улучшений.

Вывод

Scale-wise подход генерации изображений кажется эффективной и хорошо мотивированной идеей в генеративных задачах. От грубых простых деталей постепенно переходим к сложному. Ранее такая идея была воплощена в контексте Progressive GAN , VAR, каскадных диффузий. Латентную диффузию, как оказывается, можно достаточно быстро перевести в режим генерации от мала до велика. Альтернативный подход с использованием крупных патчей в DiT на первых шагах был предложен командой из Meta (с небезызвестным Артемом из эйай ньюз).

❤10

www.tgoop.com/quant_prune_distill/452

2.41K viewsedited Mar 24 at 04:15

tgoop.com/quant_prune_distill/452

Create: 2025-03-24
Last Update: 2025-08-24 04:50:11

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/452

Telegram News

Эксперименты