КПД@quant_prune_distill P.449

КПД

Метод

Мотивация следующая - есть сети-денойзеры (в контексте Image Restoration), которые получают шум на инференсе различной, неизвестной заранее, силы, и вполне успешно работают. Следовательно. и в диффузионной постановке сеть потенциально должна уметь на основе самого шума оценивать его величину.

Далее показывают красивый график с распределением шага зашумления при условии зашумленной картинки, и оказывается, что оно в большинстве случаев довольно узкое, т.е по самой картинке довольно точно можно понять насколько сильно ее зашумили за исключением высоких степеней шума.

Ниже приводятся некоторые оценки на ошибку между солвером без и с обусловливанием, и типа расхождение не очень велико.

Эксперименты

Сравнивают диффузионки без и с обусловливанием на время в следующих постановках:

Диффузионный процесс:
💥 DDPM
💥 EDM
💥 Flow Matching
💥 uEDM (предложенная модификация EDM без обусловливания на время)

Датасеты:
🛩 CIFAR10
🧔 FFHQ

Качество оценивают по FID (FIDары). Модели учат с одинаковым протоколом обучения для возможности честного сравнения.

В большинстве случаев просадка от исчезновения условия на время не очень велика (за исключением DDIM c детерминистическим сэмплером, где сильно ухудшился FID). Для Flow Matching даже наблюдается некоторое улучшение 🤔. Данное явление авторы объясняют. тем что с одной стороны сама процедура обучения немного другая - оценка flow field между распределениями, и таргет: x0 - шум не содержит в себе времени.

Кроме того, пробуют альтернативные варианты, например, учить сеть саму предсказывать уровень шума, но будто бы это ничего не дает.

Выводы

Если рассматривать работу диффузионной модели как multi task, где каждая задача - расшумление при заданном уровне шума, то при стандартном подходе, у нас есть некоторая общая база и небольшое число параметров, специфичных для данного шага. С одной стороны, можно увеличить специализацию как в eDiff и иметь отдельные сети на каждый отрезок. Здесь же, наоборот, по сути предлагают иметь полностью идентичную модель на все уровни шума. Практическая польза как будто может быть при flow-matching постановке, но непонятно, насколько выигрыш переносится на большой сетап.

👍5

www.tgoop.com/quant_prune_distill/449

1.88K viewsMar 20 at 20:26

tgoop.com/quant_prune_distill/449

Create: 2025-03-20
Last Update: 2025-08-24 04:55:38

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/449

Telegram News

Метод