QUANT_PRUNE_DISTILL Telegram 412
Метод

Напомню, что в задаче Blind Super Resolution мы хотим, с одной стороны, повысить разрешение, а с другой убрать шумы/размытости и иные возможные дефекты. Потому по самой постановке задачи, надо каким-то образом сохранить семантику входного изображения и при этом получить качественную картинку, с резкими деталями, сочными цветами и без дефектов.

И дабы достичь поставленной цели авторы предлагают следующее:

1️⃣ Обусловливание на изображение низкого разрешения путем добавления ее эмбеддингов (для чего обучают небольший энкодер) в префикс последовательности.
2️⃣ Чтобы лучше учитывать пространственные зависимости предлагают Scale-align
rotary positional encoding (SA-RoPE), адаптивный под каждый масштаб.
3️⃣ Квантованные VAE заметно уступают в качестве реконструкций непрерывным аналогам. Следуя MAR https://arxiv.org/abs/2406.11838, обучают небольшую модель (Diffusion Refiner) из 6-ти трансформерных блоков, обусловленную на дискретные токены, для получения конечного изображения.
4️⃣ Дабы улучшить качество генераций применяют classifier-free guidance c негативными примерами. Для этого отбирают из публичных датасетов сэмплы с низкими оценками и на каждом шаге прогоняют с исходным условием, “плохим условием” и считают взвешенную сумму, как в стандартном CFG. Причем CFG повышают постепенно с увеличением разрешения (в диффузионных моделях его можно отключить в конце без ущерба для качества).

Имеющиеся в публичном доступе SR-датасеты невелики (1к-10к примеров), потому авторы собирают свой датасет из LAION и прочих источников, выфильтровывают его до 4 миллионов картинок, которые классифицируют по 3к категориям (пояснение будет чуть ниже).



tgoop.com/quant_prune_distill/412
Create:
Last Update:

Метод

Напомню, что в задаче Blind Super Resolution мы хотим, с одной стороны, повысить разрешение, а с другой убрать шумы/размытости и иные возможные дефекты. Потому по самой постановке задачи, надо каким-то образом сохранить семантику входного изображения и при этом получить качественную картинку, с резкими деталями, сочными цветами и без дефектов.

И дабы достичь поставленной цели авторы предлагают следующее:

1️⃣ Обусловливание на изображение низкого разрешения путем добавления ее эмбеддингов (для чего обучают небольший энкодер) в префикс последовательности.
2️⃣ Чтобы лучше учитывать пространственные зависимости предлагают Scale-align
rotary positional encoding (SA-RoPE), адаптивный под каждый масштаб.
3️⃣ Квантованные VAE заметно уступают в качестве реконструкций непрерывным аналогам. Следуя MAR https://arxiv.org/abs/2406.11838, обучают небольшую модель (Diffusion Refiner) из 6-ти трансформерных блоков, обусловленную на дискретные токены, для получения конечного изображения.
4️⃣ Дабы улучшить качество генераций применяют classifier-free guidance c негативными примерами. Для этого отбирают из публичных датасетов сэмплы с низкими оценками и на каждом шаге прогоняют с исходным условием, “плохим условием” и считают взвешенную сумму, как в стандартном CFG. Причем CFG повышают постепенно с увеличением разрешения (в диффузионных моделях его можно отключить в конце без ущерба для качества).

Имеющиеся в публичном доступе SR-датасеты невелики (1к-10к примеров), потому авторы собирают свой датасет из LAION и прочих источников, выфильтровывают его до 4 миллионов картинок, которые классифицируют по 3к категориям (пояснение будет чуть ниже).

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/412

View MORE
Open in Telegram


Telegram News

Date: |

The best encrypted messaging apps Activate up to 20 bots To view your bio, click the Menu icon and select “View channel info.” Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Telegram users themselves will be able to flag and report potentially false content.
from us


Telegram КПД
FROM American