QUANT_PRUNE_DISTILL Telegram 452
Эксперименты

Предложенный метод дистилляции валидируется на моделях семейства SD3.5 - Medium и Large. Для оценки качества смотрим как на классические метрики FID/CLIP/ImageReward/PickScore на COCO/MJHQ-30k, так и пользовательские предпочтения.

Процедура обучения длится примерно 5к итераций (все на одной A100 ноде). Для малошагового генератора и fake модели из DMD2 обучаем LoRA адаптеры (т.е PEFTа вполне достаточно).

Для 4-шагового сэмплирования используется следующая последовательность разрешений: [256, 384, 512, 640, 768, 1024]
Для 6-шагового сэмплирования используется следующая последовательность разрешений: [256, 512, 768, 1024]

Шаги сэмплирования в расписании подбираются специально так, чтобы соответствовать моменту возникновения заданных частот для данного разрешения.

Scale-wise диффузия практически не просаживается по качеству по сравнению с генерацией в фиксированном (конечном) разрешении. При этом при фиксированном бюджете генерации Scale-wise строго лучше (4-шаговая Scale-Wise против 2-шаговой Full-scale).

По большинству метрик SwD не проседает по сравнению с исходной моделью, за исключением FID (за счет потери разнообразия). По user-preference паритет по релевантности / дефектам, и некоторое даже улучшение по эстетике/комплексности. В том числе и бьем Switti (нашу прошлую работу про Scale-wise авторегрессию).

SwD позволяет выдавать почти 6 картинок в секунду для SD3.5-Medium и 2.5 для SD3.5-Large (при генерации с батчом 8).

В ablation показываем, что компоненты метода важны:
⚡️Обучение на синтетике
⚡️Правильно подобранное расписание шума
⚡️Адаптация модели под каждый скейл
⚡️PDM лосс очень важен
⚡️Замена L2 лосса на более сложный kernel (RBF) между признаками учителя и студента не дает улучшений.

Вывод

Scale-wise подход генерации изображений кажется эффективной и хорошо мотивированной идеей в генеративных задачах. От грубых простых деталей постепенно переходим к сложному. Ранее такая идея была воплощена в контексте Progressive GAN , VAR, каскадных диффузий. Латентную диффузию, как оказывается, можно достаточно быстро перевести в режим генерации от мала до велика. Альтернативный подход с использованием крупных патчей в DiT на первых шагах был предложен командой из Meta (с небезызвестным Артемом из эйай ньюз).



tgoop.com/quant_prune_distill/452
Create:
Last Update:

Эксперименты

Предложенный метод дистилляции валидируется на моделях семейства SD3.5 - Medium и Large. Для оценки качества смотрим как на классические метрики FID/CLIP/ImageReward/PickScore на COCO/MJHQ-30k, так и пользовательские предпочтения.

Процедура обучения длится примерно 5к итераций (все на одной A100 ноде). Для малошагового генератора и fake модели из DMD2 обучаем LoRA адаптеры (т.е PEFTа вполне достаточно).

Для 4-шагового сэмплирования используется следующая последовательность разрешений: [256, 384, 512, 640, 768, 1024]
Для 6-шагового сэмплирования используется следующая последовательность разрешений: [256, 512, 768, 1024]

Шаги сэмплирования в расписании подбираются специально так, чтобы соответствовать моменту возникновения заданных частот для данного разрешения.

Scale-wise диффузия практически не просаживается по качеству по сравнению с генерацией в фиксированном (конечном) разрешении. При этом при фиксированном бюджете генерации Scale-wise строго лучше (4-шаговая Scale-Wise против 2-шаговой Full-scale).

По большинству метрик SwD не проседает по сравнению с исходной моделью, за исключением FID (за счет потери разнообразия). По user-preference паритет по релевантности / дефектам, и некоторое даже улучшение по эстетике/комплексности. В том числе и бьем Switti (нашу прошлую работу про Scale-wise авторегрессию).

SwD позволяет выдавать почти 6 картинок в секунду для SD3.5-Medium и 2.5 для SD3.5-Large (при генерации с батчом 8).

В ablation показываем, что компоненты метода важны:
⚡️Обучение на синтетике
⚡️Правильно подобранное расписание шума
⚡️Адаптация модели под каждый скейл
⚡️PDM лосс очень важен
⚡️Замена L2 лосса на более сложный kernel (RBF) между признаками учителя и студента не дает улучшений.

Вывод

Scale-wise подход генерации изображений кажется эффективной и хорошо мотивированной идеей в генеративных задачах. От грубых простых деталей постепенно переходим к сложному. Ранее такая идея была воплощена в контексте Progressive GAN , VAR, каскадных диффузий. Латентную диффузию, как оказывается, можно достаточно быстро перевести в режим генерации от мала до велика. Альтернативный подход с использованием крупных патчей в DiT на первых шагах был предложен командой из Meta (с небезызвестным Артемом из эйай ньюз).

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/452

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. To edit your name or bio, click the Menu icon and select “Manage Channel.” 4How to customize a Telegram channel? On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression."
from us


Telegram КПД
FROM American