QUANT_PRUNE_DISTILL Telegram 234
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
[Статья][Кода нет, а и TPUv5 у вас]

Введение

Есть такие scaling laws, согласно которым, чем больше модель и чем больше количество данных, на которых она училась - тем лучше ее качество или некий эрзац качества. Для LLM уже вышло множество работ по данной теме и выработаны compute-optimal рецепты обучения, но для диффузионных моделей систематического исследования до сих по не проводилось.

И ребята с Google вооруженные TPU решили заполнить зияющую пустоту ⚫️.

Эксперименты

В качестве базовой модели берут UNet от Stable-Diffusion v1.5 (866M) и меняют его ширину (глубина постоянная). И таким образом получают семейство моделей от 39М до 5B параметров.

Модели обучают на проприетарном датасете из 600M пар изображений и описаний к ним, отфильтрованном по эстетике.

Базовые настройки сэмплера - DDIM солвер с 50 шагами и cfg_scale=7.5.

Исследуют следующие задачи:
1️⃣ text-2-image генерация
2️⃣ Superresolution через дообучение модели из 1) следуя постановке из StableSR.
3️⃣ Dreambooth поверх модели из 1)


1️⃣ Для оценки качества используют по традиции FID и CLIP. В области некоторого среднего бюджета обучения модели разных размеров выдают примерно одни и те же метрики. Но при наличии значительного объёма вычислительных ресурсов - размер начинает играть значение, и самая большая модель побеждает своих меньших собратьев. Для 5B модели пришлось прибегнуть к memory-efficient training, так как при стандартном обучении с Adam+amp модель с состояниями оптимизатора не влезает в TPUv5.

Совсем маленькие модели генерируют дефектные картинки 🤪, но начиная с нескольких сот миллионов параметров качество генераций моделей примерно на одном уровне по ощущениям.

2️⃣ На downstream задачах размер моделей играет уже более существенную роль. В 4x image super-resolution большие модели даже при заданном бюджете обучения заметно выигрывают по FID. Однако по LPIPS модели разного размера с фиксированным training compute сравниваются.

3️⃣ Большие модели ожидаемо выдают более качественные DreamBooth генерации.



tgoop.com/quant_prune_distill/234
Create:
Last Update:

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
[Статья][Кода нет, а и TPUv5 у вас]

Введение

Есть такие scaling laws, согласно которым, чем больше модель и чем больше количество данных, на которых она училась - тем лучше ее качество или некий эрзац качества. Для LLM уже вышло множество работ по данной теме и выработаны compute-optimal рецепты обучения, но для диффузионных моделей систематического исследования до сих по не проводилось.

И ребята с Google вооруженные TPU решили заполнить зияющую пустоту ⚫️.

Эксперименты

В качестве базовой модели берут UNet от Stable-Diffusion v1.5 (866M) и меняют его ширину (глубина постоянная). И таким образом получают семейство моделей от 39М до 5B параметров.

Модели обучают на проприетарном датасете из 600M пар изображений и описаний к ним, отфильтрованном по эстетике.

Базовые настройки сэмплера - DDIM солвер с 50 шагами и cfg_scale=7.5.

Исследуют следующие задачи:
1️⃣ text-2-image генерация
2️⃣ Superresolution через дообучение модели из 1) следуя постановке из StableSR.
3️⃣ Dreambooth поверх модели из 1)


1️⃣ Для оценки качества используют по традиции FID и CLIP. В области некоторого среднего бюджета обучения модели разных размеров выдают примерно одни и те же метрики. Но при наличии значительного объёма вычислительных ресурсов - размер начинает играть значение, и самая большая модель побеждает своих меньших собратьев. Для 5B модели пришлось прибегнуть к memory-efficient training, так как при стандартном обучении с Adam+amp модель с состояниями оптимизатора не влезает в TPUv5.

Совсем маленькие модели генерируют дефектные картинки 🤪, но начиная с нескольких сот миллионов параметров качество генераций моделей примерно на одном уровне по ощущениям.

2️⃣ На downstream задачах размер моделей играет уже более существенную роль. В 4x image super-resolution большие модели даже при заданном бюджете обучения заметно выигрывают по FID. Однако по LPIPS модели разного размера с фиксированным training compute сравниваются.

3️⃣ Большие модели ожидаемо выдают более качественные DreamBooth генерации.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/234

View MORE
Open in Telegram


Telegram News

Date: |

As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." ZDNET RECOMMENDS
from us


Telegram КПД
FROM American