QUANT_PRUNE_DISTILL Telegram 449
Метод

Мотивация следующая - есть сети-денойзеры (в контексте Image Restoration), которые получают шум на инференсе различной, неизвестной заранее, силы, и вполне успешно работают. Следовательно. и в диффузионной постановке сеть потенциально должна уметь на основе самого шума оценивать его величину.

Далее показывают красивый график с распределением шага зашумления при условии зашумленной картинки, и оказывается, что оно в большинстве случаев довольно узкое, т.е по самой картинке довольно точно можно понять насколько сильно ее зашумили за исключением высоких степеней шума.

Ниже приводятся некоторые оценки на ошибку между солвером без и с обусловливанием, и типа расхождение не очень велико.

Эксперименты

Сравнивают диффузионки без и с обусловливанием на время в следующих постановках:

Диффузионный процесс:
💥 DDPM
💥 EDM
💥 Flow Matching
💥 uEDM (предложенная модификация EDM без обусловливания на время)

Датасеты:
🛩 CIFAR10
🧔 FFHQ

Качество оценивают по FID (FIDары). Модели учат с одинаковым протоколом обучения для возможности честного сравнения.

В большинстве случаев просадка от исчезновения условия на время не очень велика (за исключением DDIM c детерминистическим сэмплером, где сильно ухудшился FID). Для Flow Matching даже наблюдается некоторое улучшение 🤔. Данное явление авторы объясняют. тем что с одной стороны сама процедура обучения немного другая - оценка flow field между распределениями, и таргет: x0 - шум не содержит в себе времени.

Кроме того, пробуют альтернативные варианты, например, учить сеть саму предсказывать уровень шума, но будто бы это ничего не дает.

Выводы

Если рассматривать работу диффузионной модели как multi task, где каждая задача - расшумление при заданном уровне шума, то при стандартном подходе, у нас есть некоторая общая база и небольшое число параметров, специфичных для данного шага. С одной стороны, можно увеличить специализацию как в eDiff и иметь отдельные сети на каждый отрезок. Здесь же, наоборот, по сути предлагают иметь полностью идентичную модель на все уровни шума. Практическая польза как будто может быть при flow-matching постановке, но непонятно, насколько выигрыш переносится на большой сетап.
👍5



tgoop.com/quant_prune_distill/449
Create:
Last Update:

Метод

Мотивация следующая - есть сети-денойзеры (в контексте Image Restoration), которые получают шум на инференсе различной, неизвестной заранее, силы, и вполне успешно работают. Следовательно. и в диффузионной постановке сеть потенциально должна уметь на основе самого шума оценивать его величину.

Далее показывают красивый график с распределением шага зашумления при условии зашумленной картинки, и оказывается, что оно в большинстве случаев довольно узкое, т.е по самой картинке довольно точно можно понять насколько сильно ее зашумили за исключением высоких степеней шума.

Ниже приводятся некоторые оценки на ошибку между солвером без и с обусловливанием, и типа расхождение не очень велико.

Эксперименты

Сравнивают диффузионки без и с обусловливанием на время в следующих постановках:

Диффузионный процесс:
💥 DDPM
💥 EDM
💥 Flow Matching
💥 uEDM (предложенная модификация EDM без обусловливания на время)

Датасеты:
🛩 CIFAR10
🧔 FFHQ

Качество оценивают по FID (FIDары). Модели учат с одинаковым протоколом обучения для возможности честного сравнения.

В большинстве случаев просадка от исчезновения условия на время не очень велика (за исключением DDIM c детерминистическим сэмплером, где сильно ухудшился FID). Для Flow Matching даже наблюдается некоторое улучшение 🤔. Данное явление авторы объясняют. тем что с одной стороны сама процедура обучения немного другая - оценка flow field между распределениями, и таргет: x0 - шум не содержит в себе времени.

Кроме того, пробуют альтернативные варианты, например, учить сеть саму предсказывать уровень шума, но будто бы это ничего не дает.

Выводы

Если рассматривать работу диффузионной модели как multi task, где каждая задача - расшумление при заданном уровне шума, то при стандартном подходе, у нас есть некоторая общая база и небольшое число параметров, специфичных для данного шага. С одной стороны, можно увеличить специализацию как в eDiff и иметь отдельные сети на каждый отрезок. Здесь же, наоборот, по сути предлагают иметь полностью идентичную модель на все уровни шума. Практическая польза как будто может быть при flow-matching постановке, но непонятно, насколько выигрыш переносится на большой сетап.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/449

View MORE
Open in Telegram


Telegram News

Date: |

While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram КПД
FROM American