tgoop.com/quant_prune_distill/207
Last Update:
Результаты
Нащупав хороший сетап, авторы запускают полномасштабное обучение. Самая большая модель имеет 8B параметров (с учетом T5XXL или без?).
Данные отфильтровываются по наличию NSFW контента 👯♀️, эстетичности, и дубликатам.
На начальной стадии обучаются на 256x256 изображениях, а затем переходят генерации на разрешениях до 1024x1024 с разными aspect ratio. При дообучении на высоком разрешении оказывается важным изменить расписание шагов зашумления, так как изображение более высокого разрешения имеют больше сигнала. Сдвинутое расписание улучшает качество, согласно оценке аннотаторов.
После обучения на высоком разрешении, модель дообучают с помощью DPO на улучшение эстетичности и пользовательских предпочтений. Примечательно, что обучают не все параметры, а LoRA адаптеры.
Scaling модели стабильно улучшает качество. Разные модели отличаются и шириной и глубиной. Валидационный лосс (score matching loss) хорошо коррелирует с пользовательскими предпочтениями на GenEval и T2I-CompBench.
Stable Diffusion 3 сравнивают на parti-prompts с прошлыми версиями Stable Diffusion, PixArt-alpha и проприетарными моделями - DALLE-3, Midjouney-V5, Ideogram-V1.0. Stable Diffusion 3 заметно опережает прошлые SD, PixArt и слегка проприентарные модели. Основной выигрыш за счет typography, разница по визуальной эстетике не столько велика.
Большой текстовый энкодер (T5XXL) полезен при сложных промптах, но особо не влияет на эстетическое качество.
Выводы
Сильная модель, вобравшая в себя достижения современной науки и значительный инженерный труд. С точки зрения науки никаких прорывных идей, киллер-фич не предложено. Ждем код и возможность поиграться с моделькой. Rectified flow постановка по идее должна благоприятствовать хорошим генерациям в малое число шагов.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/207