QUANT_PRUNE_DISTILL Telegram 205
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
[Статья][Кода нет, но обещают]

Stability.AI таки выкатили обещанный отчет про обучения Stable Diffusion 3.

Метод

Сама по себе процедура обучения представляет комбинацию большого числа техник из прошлой литературы. Авторы перебирают различные архитектурные конфигурации, диффузионные процессы, расписания зашумления и иные трюки, чтобы достичь наилучшего качества.

Диффузионный процесс

Авторы рассматривают следующие постановки диффузионных процессов:
1️⃣ Rectified flow (который как понятно из названия используется в конечной модели). По существу, линейная интерполяция между изображением и шумом.
2️⃣ EDM с variance exploding.
3️⃣ Косинусное расписание из ADM. Модели предсказывают либо шум, либо скорость.

Кроме того, рассматриваются различные расписания зашумления. В наивном подходе шаги сэмплируются равномерно по времени диффузии. Однако предсказание скорости сложнее в середине траектории, вдали от распределения данных и распредения шума6 потому целесообразно сэмплировать чаще в середине.

Желаемого эффекта можно достичь с помощью logit-normal sampling (log t / (1 - t)) и CosMap.

Авторы ablaтят различные выборы, смотря на метрики генерации CLIP-score, FID в class-conditional генерации на ImageNet и CC12M.

Оказалось, что rectified flow (rf) с логит-нормальным распределением зашумления работает лучше всего.
🔥6



tgoop.com/quant_prune_distill/205
Create:
Last Update:

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
[Статья][Кода нет, но обещают]

Stability.AI таки выкатили обещанный отчет про обучения Stable Diffusion 3.

Метод

Сама по себе процедура обучения представляет комбинацию большого числа техник из прошлой литературы. Авторы перебирают различные архитектурные конфигурации, диффузионные процессы, расписания зашумления и иные трюки, чтобы достичь наилучшего качества.

Диффузионный процесс

Авторы рассматривают следующие постановки диффузионных процессов:
1️⃣ Rectified flow (который как понятно из названия используется в конечной модели). По существу, линейная интерполяция между изображением и шумом.
2️⃣ EDM с variance exploding.
3️⃣ Косинусное расписание из ADM. Модели предсказывают либо шум, либо скорость.

Кроме того, рассматриваются различные расписания зашумления. В наивном подходе шаги сэмплируются равномерно по времени диффузии. Однако предсказание скорости сложнее в середине траектории, вдали от распределения данных и распредения шума6 потому целесообразно сэмплировать чаще в середине.

Желаемого эффекта можно достичь с помощью logit-normal sampling (log t / (1 - t)) и CosMap.

Авторы ablaтят различные выборы, смотря на метрики генерации CLIP-score, FID в class-conditional генерации на ImageNet и CC12M.

Оказалось, что rectified flow (rf) с логит-нормальным распределением зашумления работает лучше всего.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/205

View MORE
Open in Telegram


Telegram News

Date: |

How to build a private or public channel on Telegram? Activate up to 20 bots Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation.
from us


Telegram КПД
FROM American