tgoop.com/quant_prune_distill/103
Last Update:
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
[Статья][Кода нет]
Введение
На текущий момент диффузионные модели - безусловный лидер среди различных семейств генеративных моделей. Однако, их существенным недостатком является итеративная природа генерации, вынуждающая несколько раз прогонять сеть, чтобы получить выход приемлемого качества. А в идеале бы хотелось сразу из шума и промпта получать конфетку.
Для уменьшения количества шагов генерации были разработаны продвинутые солверы, способы дистилляции учителя в ученика с меньшим количеством шагов сэмплирования. Но при стремлении количества шагов к единице, у всех методов неизбежно проседает качество генераций. В режиме одношаговой генерации новые архитектуры GANов, которые, как известно, не обучаются без жертвоприношений богам Хаоса и Разрушения, все еще остаются лучшими по качеству. Была еще работа по Consistency Models, но ее не проверяли в практически интересном сценарии.
Возникает резонный вопрос - хорошее качество генерации при помощи диффузионных недостижимо за один шаг, или наш текущий уровень прогресса в области не позволяет этого достичь?
В рассматриваемой предлагается способ одношагового сэмплирования, который, как утверждается, дает одновременно хорошее качество генераций и работает всего за один шаг.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/103