QUANT_PRUNE_DISTILL Telegram 156
Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models
[Статья]
[Код]

Введение

Человечество добилось значительных успехов в ускорении диффузионных моделей путем разработки более совершенных солверов и различных стратегий дистилляции по шагам. Однако, методы генерирующие в один или малое количество шагов так или иначе уступают многошаговым моделям — либо по качеству генераций, либо по их разнообразию.

Отсюда возникает мысль 🤔️️️️️️ — а что если не отправлять сразу учителя на пенсию, а призывать по мере необходимости, когда ученик не способен достичь желаемого качества. За счёт этого можно убить двух зайцев — иметь в среднем более быстрый инференс и хорошее качество.

И на данном соображении построена рассматриваемая статья.

Метод

В качестве учителя берут предобученную Stable Diffusion (SD v1.5 или SDXL) модель. Ученика инициализируют весами учителя и проводят процедуру Consistency Distillation.

Полученная модель может за малое число шагов (в большинстве экспериментов используют 5) выдавать генерации неплохого качества. Тем не менее, дистиллированная модель все же уступает учителю по оценке разметчиков (50% за учителя против 30% за студента).

Дальнейший анализ весьма примечателен и интересен.

Чем меньше модель—ученик подражает учителю, тем больше доля голосов ассесоров, сделавших выбор в пользу модели-студента. (Примечание: гистограммы отнормированы на суммарное число побед конкретной модели, а не число побед для данного расстояния. То есть 60% побед на правой гистограмме означает, что среди побед студента 60% из них достигаются, когда расстояние между студентом и учителем велико)

Характерно, что модель—ученик отходит от учителя сильнее на более сложных картинках (для оценки сложности картинки используется ICNet модель) и на длинных текстовых промптах. По всей видимости, и то и другое реже встречается в данных, потому у ученика появляется больший простор для фантазии.

Возвращаясь к исходной задаче — как же все таки понять, использовать ли ученика или учителя? И для этого используют ImageReward модель, которая оценивает качество генерации. Если качество генерации выше некоторого порога, то используется генерация студента, иначе прибегаем к помощи учителя. Оптимальный порог оценивается по валидационной выборке как некоторый квантиль ImageReward для учителя. корреляция с человеческими предпочтениями не идеальная — около 60%, но лучшего результата текущие методы оценки качества изображений пока не могут достичь.

Предлагается два варианта использования учителя:
1️⃣️️️️️ Regeneration (генерация с нуля)
2️⃣️️️️️ Refinement (неполное зашумление результата ученика с последующим расшумлением)
🔥3



tgoop.com/quant_prune_distill/156
Create:
Last Update:

Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models
[Статья]
[Код]

Введение

Человечество добилось значительных успехов в ускорении диффузионных моделей путем разработки более совершенных солверов и различных стратегий дистилляции по шагам. Однако, методы генерирующие в один или малое количество шагов так или иначе уступают многошаговым моделям — либо по качеству генераций, либо по их разнообразию.

Отсюда возникает мысль 🤔️️️️️️ — а что если не отправлять сразу учителя на пенсию, а призывать по мере необходимости, когда ученик не способен достичь желаемого качества. За счёт этого можно убить двух зайцев — иметь в среднем более быстрый инференс и хорошее качество.

И на данном соображении построена рассматриваемая статья.

Метод

В качестве учителя берут предобученную Stable Diffusion (SD v1.5 или SDXL) модель. Ученика инициализируют весами учителя и проводят процедуру Consistency Distillation.

Полученная модель может за малое число шагов (в большинстве экспериментов используют 5) выдавать генерации неплохого качества. Тем не менее, дистиллированная модель все же уступает учителю по оценке разметчиков (50% за учителя против 30% за студента).

Дальнейший анализ весьма примечателен и интересен.

Чем меньше модель—ученик подражает учителю, тем больше доля голосов ассесоров, сделавших выбор в пользу модели-студента. (Примечание: гистограммы отнормированы на суммарное число побед конкретной модели, а не число побед для данного расстояния. То есть 60% побед на правой гистограмме означает, что среди побед студента 60% из них достигаются, когда расстояние между студентом и учителем велико)

Характерно, что модель—ученик отходит от учителя сильнее на более сложных картинках (для оценки сложности картинки используется ICNet модель) и на длинных текстовых промптах. По всей видимости, и то и другое реже встречается в данных, потому у ученика появляется больший простор для фантазии.

Возвращаясь к исходной задаче — как же все таки понять, использовать ли ученика или учителя? И для этого используют ImageReward модель, которая оценивает качество генерации. Если качество генерации выше некоторого порога, то используется генерация студента, иначе прибегаем к помощи учителя. Оптимальный порог оценивается по валидационной выборке как некоторый квантиль ImageReward для учителя. корреляция с человеческими предпочтениями не идеальная — около 60%, но лучшего результата текущие методы оценки качества изображений пока не могут достичь.

Предлагается два варианта использования учителя:
1️⃣️️️️️ Regeneration (генерация с нуля)
2️⃣️️️️️ Refinement (неполное зашумление результата ученика с последующим расшумлением)

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/156

View MORE
Open in Telegram


Telegram News

Date: |

"Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. How to create a business channel on Telegram? (Tutorial) On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression."
from us


Telegram КПД
FROM American