КПД@quant_prune_distill P.235

КПД

В поисках эффективного сетапа сэмплирования

Далее авторы исследуют зависимость качества генераций от cfg_scale для разных размеров моделей и количества шагов сэмплирования. Выводы следующие:

1️⃣ чем больше шагов сэмплирования - тем ниже оптимальный cfg scale
2️⃣ чем больше модель - тем больше оптимальный cfg scale

При генерации с фиксированным ограничением на FLOPs меньшие модели на малых бюджетах показывают себя лучше больших. То есть лучше сделать больше шагов меньшей моделью, чем меньше - большей.

Выводы справедливы как для DDIM семплера, так и для более навороченного DPM++.

Возникает следующая мысль - а если дистиллировать модель по числу шагов генерации, не станут ли больше модели предпочтительнее при ограничительном бюджете генерации?

Оказывается, что малая недистиллированная модель с большим числом шагов сэмплирования может выдавать одно и то же качество, что и большая дистиллированная в 4 шага. В качестве алгоритма дистилляции используют Consistency Distillation.

На downstream superresolution задаче при малых бюджетах малые модели предпочтительнее, но с ослаблением ограничений ожидаемо выгоднее становится брать более крупные, ибо малые упираются в потолок по качеству.

Выводы

Довольно интересное и содержательное исследование. На мой взгляд, самый практически интересный результат работы в том, что при жестких ограничениях на бюджет генерации предпочтительнее уменьшать модель, чем число шагов генерации. Однако исследование ограничительно тем, что использует метрики, которые могут плохо кореллировать с human perception и полноценная валидация предполагает SbSы. Тем более, что у Гугла деньги на это есть 😈.

👍14

www.tgoop.com/quant_prune_distill/235

1.17K viewsedited Apr 5, 2024 at 07:41

tgoop.com/quant_prune_distill/235

Create: 2024-04-05
Last Update: 2025-09-09 00:16:14

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/235

Telegram News

В поисках эффективного сетапа сэмплирования