tgoop.com/quant_prune_distill/199
Last Update:
Эксперименты
Обучают на отфильтрованном классификатором эстетичности подмножестве из LAION и COYO. При обучении вместе с генерациями учителя используют LoRA, которую затем вшивают в веса модели, и уже всю модель учат “дурить” классификатор. Интересно, вывод о недостаточной емкости модели был сделан до или после решения обучать с LoRA? 🧐
Кроме того, обучают на расписаниях с разным количеством шагов обучения. Говорят, стабилизирует результат.
Визуально генерации в один и малое число шагов выглядят неплохо. Генерации в один шаг часто меняют существенно картинку, не нарушая семантики.
Для численной оценки качества используют FID на всех картинках, FID на патчах и CLIP Score. Для замера FID (к целому вагону недостатков) на целых изображениях надо приводить картинки к нестандартному разрешению 299x299, и это вносит сдвиг в результат замеров, потому предлагается смотреть и на кропы. По FID и CLIP SDXL-Lightning сопоставим с конкурентными SDXL-Turbo и Latent Consistency Models, но несколько лучше по FID на патчах (если не можешь явно побить бейзлайны по метрикам, придумай правильную метрику!). Все дистилляты несколько проседают по FID, в первую очередь из-за разнообразия, по всей видимости.
Выводы
Логичный и интересный подход, но не хватает SbS с асессорами. Кроме того, неизвестно насколько SDXL-Lightning подвержен проблеме снижения разнообразия генераций, коей страдает SDXL-Turbo.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/199