tgoop.com/quant_prune_distill/157
Last Update:
Результаты
В первой серии экспериментов используют SDv1.5 в качестве ученика—учителя.
Consistency дистилляция проводится на 80M подвыборке LAION-2B.
Сравнивают модели на промтах из LAION-Aesthetics и COCO2014-Сaptions.
Тандем ученик—учитель с 10 шагами генерации в среднем примерно равен DPM и DDIM с 25 шагами и 50 шагами генерации учителя, соответственно. При 15 шагах даже чуть лучше. При сравнении использовался Refinement подход.
Адаптивный подход лучше, чем просто Refinement.
Что касается автоматических метрик, Refinement и Regeneration имеют примерно одинаковый image reward, Regeneration лучший CLIP (alignment с текстом), а Refinement лучший FID (мера соответствия распределению реальных картинок).
Тандем ученик—учитель поверх SDXL сравнивается с SDXL c 50 шагами солвера и опережает SDXL-turbo.
Эффективность метода ограничена в первую очередь несовершенством процедуры оценки качества генерации студента, авторы показывают, что при наличии идеального асессора генераций, можно было бы добиться значительного разрыва с учительским бейзлайном.
Кроме того метод неплохо сохраняет разнообразие генераций учителя и хорошо себя показывает в text-guided image editing и контролируемой генерации.
Выводы
Красивая идея и результаты, подкрепленные занимательным анализом. Использование нескольких моделей для решения конкретной задачи выглядит действительно сильным подходом, уже неоднократно возникавшим в литературе . Основная сложность именно в том, как оптимально выбрать ту или иную модель и сколько моделей и какие мы можем позволить держать в памяти и применять.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/157