tgoop.com/quant_prune_distill/104
Last Update:
Метод
Процесс генерации диффузионной моделью можно рассматривать как перемещение в пространстве состояний из шума, обусловленного на что-то, в изображение (или любую иную сущность). Перемещение в пространстве состояний задает некоторую траекторию, вообще говоря, довольно произвольной формы, описываемую некоторым дифференциальным уравнением. Уравнение не имеет аналитического решения, поэтому приходится решать его численно.
В пределе бесконечно мало шага, траектория, полученная численными методами совпадает с истинным решением. Но на практике количество шагов ограничено, и чем больше шаг, тем сильнее полученная ломаная отклоняется от кривой.
Отсюда возникает мысль - а что, если вместо того, чтобы улучшать солвер, выпрямить траектории? В пределе идеально прямой траектории от шума до картинки, самый простой солвер будет попадать идеально в яблочко.
А чтобы выпрямить траектории, авторы предлагают Rectified Flow - метод итеративного выпрямления траекторий.
Суть метода заключается в следующем: у нас есть изначальный метод генерации (сеть + солвер), выдающий некоторые траектории X(t). А новая сеть должна за один шаг, стартуя из начальной точки X(0)
, попасть в X(t)
, но уже по прямому пути. А затем процесс повторяется с использованием сети с последней итерации для генерации траекторий. Таким образом, постепенно траектории становятся все более и более прямыми. Фиксированная точка итеративного процесса, когда прошлый генератор траекторий совпадает с текущим - и есть генератор идеально прямых траекторий.
Но процесс сходится к идеально прямым траекториям только в пределе бесконечного числа итераций, что недостижимо на практике. Но оказывается, что уже пары итераций выпрямления достаточно для получения достаточно прямых траекторий.
Далее, последнюю модель с RectifiedFlow дистиллируют в модель, предсказывающую картинку из шума за раз. В качестве функций потерь на данной стадии используют MSE и the Learned Perceptual Image Patch Similarity (LPIPS), более коррелирующий с человеческим представлением о качестве изображения.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/104