Love. Death. Transformers. 9591

Forwarded from whargarbl

EQ Vae - https://arxiv.org/abs/2502.09509

Очередной "прорыв в 7 раз ускоряем обучение"

Протестировал несколько новых ВАЕ
От кохаку
https://huggingface.co/KBlueLeaf/EQ-SDXL-VAE

И от какого то чувака с реддит
https://huggingface.co/Anzhc/MS-LC-EQ-D-VR_VAE

Пост
https://www.reddit.com/r/StableDiffusion/comments/1mdn3bo/comment/n67mwoj/?context=3

Я тестировал только ВАЕ Кохаку тк его я знаю как профи, а чуви с реддит не знает основ

Кохаку log-variance: -4.233
SDXL log-variance: -0.335

распределение у Кохаку гораздо менее нормальное

Коротко: для вае важно добавлять нойз в латентное пространство, а не блять удалять его (дебилы!) патаму что нужно повышать логварианс

Простыми словами:
Центр латентов должен быть в нуле и колокол должен отходить от центра далеко (лол ппц я объясняю, да?)

Короче нормальное распределение (циферки распределены нормально по диапазону), а диапазон должен быть широким чтобы не округлялось в маленькие чиселки (вот, теперь объяснил как про)

Ща еще лучше объясню:
Хуевый варианс - хуево учиться будет! Числовая нестабильность, деление на ноль! Снег башка попадет, круасан в булочку округлится!

Несмотря на то что глазами выглядит нот бед
https://imgsli.com/NDAyOTUy
EQ - это Кохаку

Латенты хреново распределены и вае хреновый

Если вы хотите натренить вае и не обосраться - я рекомендую оттолкнуться от репы разраба ауры
https://github.com/cloneofsimo/vqgan-training?tab=readme-ov-file#details

Потому что в пункт 5 они как раз занимаются расталкиванием латентов

И фол натренил этой репой
https://huggingface.co/fal/AuraEquiVAE

И у них вроде неплохо получилось

ЗЫ Фух, я больше наверно не буду писать про такие сложные вещи у меня не получается простыми словами объяснить а сложных я не знаю

Аттач: смотрите какой красивый холмик у сдхл вае и какой уродливый горбик у кохаку EQ вае

😁40👍8💊77🥱4💩2⚡1🔥1

9.22K views07:52