QUANT_PRUNE_DISTILL Telegram 45
[Статья][Код]

На днях Stability.AI выкатили новую диффузионку: Stable Diffusion XL.

Как можно догадаться из названия, моделька заметно набрала в мышечной массе по сравнению с исходной моделью: расшумляющий UNet вырос в 3 раза в размере, стал длиньше и толще. Остальные изменения носят скорее инкрементальный характер, но тем не менее любопытны.

Архитектура

Выше было сказано, сеть увеличилась в размерах. При этом убрали self-attention на максимальном разрешении (из-за большого количества вычислений), и всего 2 стадии уменьшения разрешения в 2 раза вместо 3 в исходной SD (т.е в середине UNet пространственное разрешение в 4 раза меньше, чем на входе и выходе). В середину напихали аж 10 блоков Attention.

Conditioning

Size conditionining
Картинки в датасетах бывают разных размеров. Из-за двухстадийной структуры - диффузии в латентном пространстве и SR каскада, Stable Diffusion имеет жесткие ограничения на размер данных (SD v1.4 обучалась на картинках, где меньшая из сторон имеет размер 512). А существенная доля данных (39%) имеет размер менее 256 (минимальный принимаемый SDXL) . Можно было бы интерполировать до минимального приемлемого размера - но полученные картинки будут размытыми, и сеть будет считать, что так и надо. Потому авторы предложили при обучении и генерации обуславливать на размер (пару значений высота/ширина) - если надо мыльную картинку, получай мыльную, надо резкую - получай резкую.
Модификация улучшает метрики (FID и IS).

Crop conditioning
Stable Diffusion при генерации по промпту нередко выдает кропы картинок, которые смотрятся неэстетично. По всей видимости, причина в том, что подобная аугментация использовалась на обучении модели. Решение простое - снова condition на положение кропа (нормализованные от [0,1] координаты верхнего левого угла). В итоге при condition на (0,0) выдаются более центрированные картинки, захватывающие объект целиком.

Оба типа conditioning добавляют Фурье-эмбеддинги в процесс генерации.`

Multi-aspect training
На практике интересна генерация не только квадратных картинок, но и прямоугольных, потому сеть дообучают на генерацию с разными соотношениями ширины и высоты. Чтобы обучение было эффективным, в один батч собирают картинки с похожим aspect ratio (bucketing).

Improved Autoencoder
Потюнили параметры обучения и улучшили реконструкцию из латентного пространства.

Refinement стадия
После базового UNet для диффузии в латентном пространстве добавили еще один UNet для улучшения полученных представлений. Подобная модификация, как утверждается, помогает генерировать более мелкие детали.

Результаты
Stable Diffusion XL, по мнению большинства пользователей, всегда или почти всегда лучше стандартной Stable Diffusion, причем версия refinement стадией выглядит более предпочтительной, чем без нее. Что интересно, метрики FID и CLIP score, на COCO - стандартном бенчмарке для оценки качества генерации по промптам, даже просели по сравнению с SD (v1.5, v2.1), но на них, как известно, следует ориентировать с некоторой опаской. SDXL сравнили с Midjourney v5.1 на PartiPrompts (P2), и на ряде категорий, пользователи чаще отдавали предпочтение SDXL, что выглядит солидно, учитывая, что Midjourney считается флагманом по генерации. Есть однако подозрения у знающих людей, что саму SDXL файнтьюнили на генерациям от Midjourney.

Сама модель настолько же опенсорсная, как и LLaMA. Веса выдаются только с одобрения авторов. Ждем пираток, короче.
👍4



tgoop.com/quant_prune_distill/45
Create:
Last Update:

[Статья][Код]

На днях Stability.AI выкатили новую диффузионку: Stable Diffusion XL.

Как можно догадаться из названия, моделька заметно набрала в мышечной массе по сравнению с исходной моделью: расшумляющий UNet вырос в 3 раза в размере, стал длиньше и толще. Остальные изменения носят скорее инкрементальный характер, но тем не менее любопытны.

Архитектура

Выше было сказано, сеть увеличилась в размерах. При этом убрали self-attention на максимальном разрешении (из-за большого количества вычислений), и всего 2 стадии уменьшения разрешения в 2 раза вместо 3 в исходной SD (т.е в середине UNet пространственное разрешение в 4 раза меньше, чем на входе и выходе). В середину напихали аж 10 блоков Attention.

Conditioning

Size conditionining
Картинки в датасетах бывают разных размеров. Из-за двухстадийной структуры - диффузии в латентном пространстве и SR каскада, Stable Diffusion имеет жесткие ограничения на размер данных (SD v1.4 обучалась на картинках, где меньшая из сторон имеет размер 512). А существенная доля данных (39%) имеет размер менее 256 (минимальный принимаемый SDXL) . Можно было бы интерполировать до минимального приемлемого размера - но полученные картинки будут размытыми, и сеть будет считать, что так и надо. Потому авторы предложили при обучении и генерации обуславливать на размер (пару значений высота/ширина) - если надо мыльную картинку, получай мыльную, надо резкую - получай резкую.
Модификация улучшает метрики (FID и IS).

Crop conditioning
Stable Diffusion при генерации по промпту нередко выдает кропы картинок, которые смотрятся неэстетично. По всей видимости, причина в том, что подобная аугментация использовалась на обучении модели. Решение простое - снова condition на положение кропа (нормализованные от [0,1] координаты верхнего левого угла). В итоге при condition на (0,0) выдаются более центрированные картинки, захватывающие объект целиком.

Оба типа conditioning добавляют Фурье-эмбеддинги в процесс генерации.`

Multi-aspect training
На практике интересна генерация не только квадратных картинок, но и прямоугольных, потому сеть дообучают на генерацию с разными соотношениями ширины и высоты. Чтобы обучение было эффективным, в один батч собирают картинки с похожим aspect ratio (bucketing).

Improved Autoencoder
Потюнили параметры обучения и улучшили реконструкцию из латентного пространства.

Refinement стадия
После базового UNet для диффузии в латентном пространстве добавили еще один UNet для улучшения полученных представлений. Подобная модификация, как утверждается, помогает генерировать более мелкие детали.

Результаты
Stable Diffusion XL, по мнению большинства пользователей, всегда или почти всегда лучше стандартной Stable Diffusion, причем версия refinement стадией выглядит более предпочтительной, чем без нее. Что интересно, метрики FID и CLIP score, на COCO - стандартном бенчмарке для оценки качества генерации по промптам, даже просели по сравнению с SD (v1.5, v2.1), но на них, как известно, следует ориентировать с некоторой опаской. SDXL сравнили с Midjourney v5.1 на PartiPrompts (P2), и на ряде категорий, пользователи чаще отдавали предпочтение SDXL, что выглядит солидно, учитывая, что Midjourney считается флагманом по генерации. Есть однако подозрения у знающих людей, что саму SDXL файнтьюнили на генерациям от Midjourney.

Сама модель настолько же опенсорсная, как и LLaMA. Веса выдаются только с одобрения авторов. Ждем пираток, короче.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/45

View MORE
Open in Telegram


Telegram News

Date: |

Telegram Channels requirements & features The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. SUCK Channel Telegram
from us


Telegram КПД
FROM American