tgoop.com/quant_prune_distill/205
Last Update:
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
[Статья][Кода нет, но обещают]
Stability.AI таки выкатили обещанный отчет про обучения Stable Diffusion 3.
Метод
Сама по себе процедура обучения представляет комбинацию большого числа техник из прошлой литературы. Авторы перебирают различные архитектурные конфигурации, диффузионные процессы, расписания зашумления и иные трюки, чтобы достичь наилучшего качества.
Диффузионный процесс
Авторы рассматривают следующие постановки диффузионных процессов:
1️⃣ Rectified flow (который как понятно из названия используется в конечной модели). По существу, линейная интерполяция между изображением и шумом.
2️⃣ EDM с variance exploding.
3️⃣ Косинусное расписание из ADM. Модели предсказывают либо шум, либо скорость.
Кроме того, рассматриваются различные расписания зашумления. В наивном подходе шаги сэмплируются равномерно по времени диффузии. Однако предсказание скорости сложнее в середине траектории, вдали от распределения данных и распредения шума6 потому целесообразно сэмплировать чаще в середине.
Желаемого эффекта можно достичь с помощью logit-normal sampling (log t / (1 - t)) и CosMap.
Авторы ablaтят различные выборы, смотря на метрики генерации CLIP-score, FID в class-conditional генерации на ImageNet и CC12M.
Оказалось, что rectified flow (rf) с логит-нормальным распределением зашумления работает лучше всего.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/205