tgoop.com/quant_prune_distill/412
Last Update:
Метод
Напомню, что в задаче Blind Super Resolution мы хотим, с одной стороны, повысить разрешение, а с другой убрать шумы/размытости и иные возможные дефекты. Потому по самой постановке задачи, надо каким-то образом сохранить семантику входного изображения и при этом получить качественную картинку, с резкими деталями, сочными цветами и без дефектов.
И дабы достичь поставленной цели авторы предлагают следующее:
1️⃣ Обусловливание на изображение низкого разрешения путем добавления ее эмбеддингов (для чего обучают небольший энкодер) в префикс последовательности.
2️⃣ Чтобы лучше учитывать пространственные зависимости предлагают Scale-align
rotary positional encoding (SA-RoPE), адаптивный под каждый масштаб.
3️⃣ Квантованные VAE заметно уступают в качестве реконструкций непрерывным аналогам. Следуя MAR https://arxiv.org/abs/2406.11838, обучают небольшую модель (Diffusion Refiner) из 6-ти трансформерных блоков, обусловленную на дискретные токены, для получения конечного изображения.
4️⃣ Дабы улучшить качество генераций применяют classifier-free guidance c негативными примерами. Для этого отбирают из публичных датасетов сэмплы с низкими оценками и на каждом шаге прогоняют с исходным условием, “плохим условием” и считают взвешенную сумму, как в стандартном CFG. Причем CFG повышают постепенно с увеличением разрешения (в диффузионных моделях его можно отключить в конце без ущерба для качества).
Имеющиеся в публичном доступе SR-датасеты невелики (1к-10к примеров), потому авторы собирают свой датасет из LAION и прочих источников, выфильтровывают его до 4 миллионов картинок, которые классифицируют по 3к категориям (пояснение будет чуть ниже).
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/412