QUANT_PRUNE_DISTILL Telegram 452
Эксперименты

Предложенный метод дистилляции валидируется на моделях семейства SD3.5 - Medium и Large. Для оценки качества смотрим как на классические метрики FID/CLIP/ImageReward/PickScore на COCO/MJHQ-30k, так и пользовательские предпочтения.

Процедура обучения длится примерно 5к итераций (все на одной A100 ноде). Для малошагового генератора и fake модели из DMD2 обучаем LoRA адаптеры (т.е PEFTа вполне достаточно).

Для 4-шагового сэмплирования используется следующая последовательность разрешений: [256, 384, 512, 640, 768, 1024]
Для 6-шагового сэмплирования используется следующая последовательность разрешений: [256, 512, 768, 1024]

Шаги сэмплирования в расписании подбираются специально так, чтобы соответствовать моменту возникновения заданных частот для данного разрешения.

Scale-wise диффузия практически не просаживается по качеству по сравнению с генерацией в фиксированном (конечном) разрешении. При этом при фиксированном бюджете генерации Scale-wise строго лучше (4-шаговая Scale-Wise против 2-шаговой Full-scale).

По большинству метрик SwD не проседает по сравнению с исходной моделью, за исключением FID (за счет потери разнообразия). По user-preference паритет по релевантности / дефектам, и некоторое даже улучшение по эстетике/комплексности. В том числе и бьем Switti (нашу прошлую работу про Scale-wise авторегрессию).

SwD позволяет выдавать почти 6 картинок в секунду для SD3.5-Medium и 2.5 для SD3.5-Large (при генерации с батчом 8).

В ablation показываем, что компоненты метода важны:
⚡️Обучение на синтетике
⚡️Правильно подобранное расписание шума
⚡️Адаптация модели под каждый скейл
⚡️PDM лосс очень важен
⚡️Замена L2 лосса на более сложный kernel (RBF) между признаками учителя и студента не дает улучшений.

Вывод

Scale-wise подход генерации изображений кажется эффективной и хорошо мотивированной идеей в генеративных задачах. От грубых простых деталей постепенно переходим к сложному. Ранее такая идея была воплощена в контексте Progressive GAN , VAR, каскадных диффузий. Латентную диффузию, как оказывается, можно достаточно быстро перевести в режим генерации от мала до велика. Альтернативный подход с использованием крупных патчей в DiT на первых шагах был предложен командой из Meta (с небезызвестным Артемом из эйай ньюз).
10



tgoop.com/quant_prune_distill/452
Create:
Last Update:

Эксперименты

Предложенный метод дистилляции валидируется на моделях семейства SD3.5 - Medium и Large. Для оценки качества смотрим как на классические метрики FID/CLIP/ImageReward/PickScore на COCO/MJHQ-30k, так и пользовательские предпочтения.

Процедура обучения длится примерно 5к итераций (все на одной A100 ноде). Для малошагового генератора и fake модели из DMD2 обучаем LoRA адаптеры (т.е PEFTа вполне достаточно).

Для 4-шагового сэмплирования используется следующая последовательность разрешений: [256, 384, 512, 640, 768, 1024]
Для 6-шагового сэмплирования используется следующая последовательность разрешений: [256, 512, 768, 1024]

Шаги сэмплирования в расписании подбираются специально так, чтобы соответствовать моменту возникновения заданных частот для данного разрешения.

Scale-wise диффузия практически не просаживается по качеству по сравнению с генерацией в фиксированном (конечном) разрешении. При этом при фиксированном бюджете генерации Scale-wise строго лучше (4-шаговая Scale-Wise против 2-шаговой Full-scale).

По большинству метрик SwD не проседает по сравнению с исходной моделью, за исключением FID (за счет потери разнообразия). По user-preference паритет по релевантности / дефектам, и некоторое даже улучшение по эстетике/комплексности. В том числе и бьем Switti (нашу прошлую работу про Scale-wise авторегрессию).

SwD позволяет выдавать почти 6 картинок в секунду для SD3.5-Medium и 2.5 для SD3.5-Large (при генерации с батчом 8).

В ablation показываем, что компоненты метода важны:
⚡️Обучение на синтетике
⚡️Правильно подобранное расписание шума
⚡️Адаптация модели под каждый скейл
⚡️PDM лосс очень важен
⚡️Замена L2 лосса на более сложный kernel (RBF) между признаками учителя и студента не дает улучшений.

Вывод

Scale-wise подход генерации изображений кажется эффективной и хорошо мотивированной идеей в генеративных задачах. От грубых простых деталей постепенно переходим к сложному. Ранее такая идея была воплощена в контексте Progressive GAN , VAR, каскадных диффузий. Латентную диффузию, как оказывается, можно достаточно быстро перевести в режим генерации от мала до велика. Альтернативный подход с использованием крупных патчей в DiT на первых шагах был предложен командой из Meta (с небезызвестным Артемом из эйай ньюз).

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/452

View MORE
Open in Telegram


Telegram News

Date: |

fire bomb molotov November 18 Dylan Hollingsworth yau ma tei The best encrypted messaging apps As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Click “Save” ;
from us


Telegram КПД
FROM American