tgoop.com/c_research/162
Last Update:
Consistency-diversity-realism Pareto fronts of conditional image generative models
Аналитическая статья от Meta, в которой авторы рассматривают мультимодальные (image/text) модели в контексте баланса трёх критериев: реализм, консистентность, разнообразие. Внимания заслуживают сами критерии и метрики их оценки в купе с выводами об открытых моделях.
Критерии.
В этой работе консистентность - это соответствие промта и изображения. В случае генеративных моделей это буквально prompt following, который можно оценивать CLIP-like моделями, а можно Visual Question Answering (VQA) подходами. Авторы придерживаются второго сценария и определяют консистентность как долю правильных ответов, которые VQA модель может сделать по (сгенерированной) картинке.
С реализмом и разнообразием чуть сложнее. Для них авторы определяют два случая: условный и безусловный.
В условном случае учитывается влияние промта на результат генерации изображения. Разнообразие определяют как среднее попарное косинусное расстояние между DreamSIM фичами N
генераций по одному и тому же промту, а реализм - как то же самое косинусное расстояние между DreamSIM фичами, но теперь для пары реальная-сгенерированная картинка, соответствующей одному и тому же промту.
В безусловном случае всё просто: разнообразие это Recall, а реализм - FID.
Выводы.
Основной результат работы - Парето кривые для всех пар обозначенных кривых (скрин). На них видно, что реализм и консистентность можно одновременно улучшать и для text-to-image моделей, лучший результат по ним у SDXL. Однако даётся это не бесплатно, а в ущерб разнообразию, чемпионами по которой являются ранние версии SD (v1.4, v1.5).
В целом, прогресс в text-to-image и image+text-to-image моделях в разных доменах, в основном, достигается за счет потери разнообразия. Это интересный результат, учитывая то насколько сильным аргументом в пользу диффузии всегда выступает именно разнообразия её генерации.
В статье также подтверждается несколько известных наблюдений о влиянии CFG, RAG и фильтраций на разнообразие.
BY Concise Research

Share with your friend now:
tgoop.com/c_research/162