QUANT_PRUNE_DISTILL Telegram 207
Результаты

Нащупав хороший сетап, авторы запускают полномасштабное обучение. Самая большая модель имеет 8B параметров (с учетом T5XXL или без?).

Данные отфильтровываются по наличию NSFW контента 👯‍♀️, эстетичности, и дубликатам.

На начальной стадии обучаются на 256x256 изображениях, а затем переходят генерации на разрешениях до 1024x1024 с разными aspect ratio. При дообучении на высоком разрешении оказывается важным изменить расписание шагов зашумления, так как изображение более высокого разрешения имеют больше сигнала. Сдвинутое расписание улучшает качество, согласно оценке аннотаторов.

После обучения на высоком разрешении, модель дообучают с помощью DPO на улучшение эстетичности и пользовательских предпочтений. Примечательно, что обучают не все параметры, а LoRA адаптеры.

Scaling модели стабильно улучшает качество. Разные модели отличаются и шириной и глубиной. Валидационный лосс (score matching loss) хорошо коррелирует с пользовательскими предпочтениями на GenEval и T2I-CompBench.

Stable Diffusion 3 сравнивают на parti-prompts с прошлыми версиями Stable Diffusion, PixArt-alpha и проприетарными моделями - DALLE-3, Midjouney-V5, Ideogram-V1.0. Stable Diffusion 3 заметно опережает прошлые SD, PixArt и слегка проприентарные модели. Основной выигрыш за счет typography, разница по визуальной эстетике не столько велика.

Большой текстовый энкодер (T5XXL) полезен при сложных промптах, но особо не влияет на эстетическое качество.

Выводы

Сильная модель, вобравшая в себя достижения современной науки и значительный инженерный труд. С точки зрения науки никаких прорывных идей, киллер-фич не предложено. Ждем код и возможность поиграться с моделькой. Rectified flow постановка по идее должна благоприятствовать хорошим генерациям в малое число шагов.
🔥8



tgoop.com/quant_prune_distill/207
Create:
Last Update:

Результаты

Нащупав хороший сетап, авторы запускают полномасштабное обучение. Самая большая модель имеет 8B параметров (с учетом T5XXL или без?).

Данные отфильтровываются по наличию NSFW контента 👯‍♀️, эстетичности, и дубликатам.

На начальной стадии обучаются на 256x256 изображениях, а затем переходят генерации на разрешениях до 1024x1024 с разными aspect ratio. При дообучении на высоком разрешении оказывается важным изменить расписание шагов зашумления, так как изображение более высокого разрешения имеют больше сигнала. Сдвинутое расписание улучшает качество, согласно оценке аннотаторов.

После обучения на высоком разрешении, модель дообучают с помощью DPO на улучшение эстетичности и пользовательских предпочтений. Примечательно, что обучают не все параметры, а LoRA адаптеры.

Scaling модели стабильно улучшает качество. Разные модели отличаются и шириной и глубиной. Валидационный лосс (score matching loss) хорошо коррелирует с пользовательскими предпочтениями на GenEval и T2I-CompBench.

Stable Diffusion 3 сравнивают на parti-prompts с прошлыми версиями Stable Diffusion, PixArt-alpha и проприетарными моделями - DALLE-3, Midjouney-V5, Ideogram-V1.0. Stable Diffusion 3 заметно опережает прошлые SD, PixArt и слегка проприентарные модели. Основной выигрыш за счет typography, разница по визуальной эстетике не столько велика.

Большой текстовый энкодер (T5XXL) полезен при сложных промптах, но особо не влияет на эстетическое качество.

Выводы

Сильная модель, вобравшая в себя достижения современной науки и значительный инженерный труд. С точки зрения науки никаких прорывных идей, киллер-фич не предложено. Ждем код и возможность поиграться с моделькой. Rectified flow постановка по идее должна благоприятствовать хорошим генерациям в малое число шагов.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/207

View MORE
Open in Telegram


Telegram News

Date: |

Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. The Channel name and bio must be no more than 255 characters long Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart.
from us


Telegram КПД
FROM American