tgoop.com/quant_prune_distill/408
Last Update:
Метод
В статье рассматривают две постановки:
1️⃣ Class-conditional генерация SiT-B/L/XL (какой-то трансформер с приблудами)
2️⃣ 📝-2-🖥 генерация c FLUX
В данной статье исследуют разные стратегии отбора лучших сэмплов и модели для оценки качества.
Стратегии отбора
1️⃣ Random Search. Просто сэмплируем независимо N кандидатов и берем лучшего (с точки зрения модели-оценщика).
2️⃣ Zero-Order Search. Стартуя со случайного шума, сэмплируем несколько шумов в его окрестности. Оцениваем их, находим лучший, и используем в качестве начальной точки на новой итерации. (Градиентная оптимизация требует проброса градиентов через всю цепочку сэмплирования, потому очень дорогая, и не очень хорошо работает, как показано в приложении)
3️⃣ Search over Paths. Сэмплируем несколько начальных шумов (траекторий), и с некоторого уровня шума генерируем несколько конечных сэмплов. Отбираем лучшие для каждой траектории, зашумляем до меньшего уровня шума и запускаем генерацию уже оттуда.
В качестве верификаторов для оценки качества class-conditional генерации используют:
1️⃣ Inception Score напрямую
2️⃣ CLIP (где эмбеддят класс в промпт вида “a photo of <class>” )
3️⃣ Линейный классификатор поверх DINOv2
При фиксированном (достаточно большом числе шагов) увеличивают количество случайных шумов. Метрика Inception Score (оценивающая точность распознавания сгенерированного изображения Inception-V3) монотонно растет с увеличением количества сэмплов (для supervised классификаторов ожидаемо сильнее). Однако, FID (тоже хреновая метрика, к слову), начиная с какого-то момента начинает расти (т.е ухудшаться). По всей видимости, это связано с тем, что строгий отбор снижает разнообразие генераций и имеет место переобучение под верификаторы.
В качестве альтернативы авторы предлагают self-supervised верификаторы - косинусную близость между логитами классификаторов x0-предсказания на малом уровне шума, и конечного сэмпла. И показывают, что она неплохо коррелирует с исходными классификаторами. Метрика не самая интуитивная. Предположительно, идея в том, что если сэмпл хороший получается, то на последнем участке генерации x0-предсказание слабо меняется.
Далее пробуют разные стратегии отбора, увеличивая число кандидатов. Метрики монотонно растут, но будто бы результаты мало зависят от гиперпараметров каждого из вариантов - размера окрестности в случае Zero-Order Search и числа траекторий для Search over Paths.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/408