QUANT_PRUNE_DISTILL Telegram 235
В поисках эффективного сетапа сэмплирования

Далее авторы исследуют зависимость качества генераций от cfg_scale для разных размеров моделей и количества шагов сэмплирования. Выводы следующие:

1️⃣ чем больше шагов сэмплирования - тем ниже оптимальный cfg scale
2️⃣ чем больше модель - тем больше оптимальный cfg scale

При генерации с фиксированным ограничением на FLOPs меньшие модели на малых бюджетах показывают себя лучше больших. То есть лучше сделать больше шагов меньшей моделью, чем меньше - большей.

Выводы справедливы как для DDIM семплера, так и для более навороченного DPM++.

Возникает следующая мысль - а если дистиллировать модель по числу шагов генерации, не станут ли больше модели предпочтительнее при ограничительном бюджете генерации?

Оказывается, что малая недистиллированная модель с большим числом шагов сэмплирования может выдавать одно и то же качество, что и большая дистиллированная в 4 шага. В качестве алгоритма дистилляции используют Consistency Distillation.

На downstream superresolution задаче при малых бюджетах малые модели предпочтительнее, но с ослаблением ограничений ожидаемо выгоднее становится брать более крупные, ибо малые упираются в потолок по качеству.

Выводы

Довольно интересное и содержательное исследование. На мой взгляд, самый практически интересный результат работы в том, что при жестких ограничениях на бюджет генерации предпочтительнее уменьшать модель, чем число шагов генерации. Однако исследование ограничительно тем, что использует метрики, которые могут плохо кореллировать с human perception и полноценная валидация предполагает SbSы. Тем более, что у Гугла деньги на это есть 😈.
👍14



tgoop.com/quant_prune_distill/235
Create:
Last Update:

В поисках эффективного сетапа сэмплирования

Далее авторы исследуют зависимость качества генераций от cfg_scale для разных размеров моделей и количества шагов сэмплирования. Выводы следующие:

1️⃣ чем больше шагов сэмплирования - тем ниже оптимальный cfg scale
2️⃣ чем больше модель - тем больше оптимальный cfg scale

При генерации с фиксированным ограничением на FLOPs меньшие модели на малых бюджетах показывают себя лучше больших. То есть лучше сделать больше шагов меньшей моделью, чем меньше - большей.

Выводы справедливы как для DDIM семплера, так и для более навороченного DPM++.

Возникает следующая мысль - а если дистиллировать модель по числу шагов генерации, не станут ли больше модели предпочтительнее при ограничительном бюджете генерации?

Оказывается, что малая недистиллированная модель с большим числом шагов сэмплирования может выдавать одно и то же качество, что и большая дистиллированная в 4 шага. В качестве алгоритма дистилляции используют Consistency Distillation.

На downstream superresolution задаче при малых бюджетах малые модели предпочтительнее, но с ослаблением ограничений ожидаемо выгоднее становится брать более крупные, ибо малые упираются в потолок по качеству.

Выводы

Довольно интересное и содержательное исследование. На мой взгляд, самый практически интересный результат работы в том, что при жестких ограничениях на бюджет генерации предпочтительнее уменьшать модель, чем число шагов генерации. Однако исследование ограничительно тем, что использует метрики, которые могут плохо кореллировать с human perception и полноценная валидация предполагает SbSы. Тем более, что у Гугла деньги на это есть 😈.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/235

View MORE
Open in Telegram


Telegram News

Date: |

3How to create a Telegram channel? fire bomb molotov November 18 Dylan Hollingsworth yau ma tei 6How to manage your Telegram channel? Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. Step-by-step tutorial on desktop:
from us


Telegram КПД
FROM American