КПД@quant_prune_distill P.408

КПД

Метод

В статье рассматривают две постановки:
1️⃣ Class-conditional генерация SiT-B/L/XL (какой-то трансформер с приблудами)
2️⃣ 📝-2-🖥 генерация c FLUX

В данной статье исследуют разные стратегии отбора лучших сэмплов и модели для оценки качества.

Стратегии отбора
1️⃣ Random Search. Просто сэмплируем независимо N кандидатов и берем лучшего (с точки зрения модели-оценщика).
2️⃣ Zero-Order Search. Стартуя со случайного шума, сэмплируем несколько шумов в его окрестности. Оцениваем их, находим лучший, и используем в качестве начальной точки на новой итерации. (Градиентная оптимизация требует проброса градиентов через всю цепочку сэмплирования, потому очень дорогая, и не очень хорошо работает, как показано в приложении)
3️⃣ Search over Paths. Сэмплируем несколько начальных шумов (траекторий), и с некоторого уровня шума генерируем несколько конечных сэмплов. Отбираем лучшие для каждой траектории, зашумляем до меньшего уровня шума и запускаем генерацию уже оттуда.

В качестве верификаторов для оценки качества class-conditional генерации используют:
1️⃣ Inception Score напрямую
2️⃣ CLIP (где эмбеддят класс в промпт вида “a photo of <class>” )
3️⃣ Линейный классификатор поверх DINOv2

При фиксированном (достаточно большом числе шагов) увеличивают количество случайных шумов. Метрика Inception Score (оценивающая точность распознавания сгенерированного изображения Inception-V3) монотонно растет с увеличением количества сэмплов (для supervised классификаторов ожидаемо сильнее). Однако, FID (тоже хреновая метрика, к слову), начиная с какого-то момента начинает расти (т.е ухудшаться). По всей видимости, это связано с тем, что строгий отбор снижает разнообразие генераций и имеет место переобучение под верификаторы.

В качестве альтернативы авторы предлагают self-supervised верификаторы - косинусную близость между логитами классификаторов x0-предсказания на малом уровне шума, и конечного сэмпла. И показывают, что она неплохо коррелирует с исходными классификаторами. Метрика не самая интуитивная. Предположительно, идея в том, что если сэмпл хороший получается, то на последнем участке генерации x0-предсказание слабо меняется.

Далее пробуют разные стратегии отбора, увеличивая число кандидатов. Метрики монотонно растут, но будто бы результаты мало зависят от гиперпараметров каждого из вариантов - размера окрестности в случае Zero-Order Search и числа траекторий для Search over Paths.

www.tgoop.com/quant_prune_distill/408

1.48K viewsJan 26 at 18:52

tgoop.com/quant_prune_distill/408

Create: 2025-01-26
Last Update: 2025-08-28 17:08:08

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/408

Telegram News

Метод