QUANT_PRUNE_DISTILL Telegram 409
Эксперименты

Для Text-2-Image генерации с FLUX в качестве верификаторов используют:
1️⃣ Классификатор эстетичности 💃 поверх OpenCLIP
2️⃣ CLIP Score
3️⃣ ImageReward
4️⃣ Ансамбль всех трех (с одинаковыми весами)

FLUXом гененируют по умолчанию в 30 шагов сэмплирования, SiT в 250.
Для оценки качества (не доверяя субъективного мнению кожаных мешков) используют Gemini-1.5-Flash, которая оценивает качество по 5 аспектам:
⚡️Accuracy to Prompt (соответствие запросу)
⚡️Originality (оригинальность)
⚡️Visual Quality (визуальное качество)
⚡️Internal Consistency (внутренняя консистентность)
⚡️Emotional Resonance (в душе не ебу, что это, возможно, степень шатания смотрящего от эмоций при взгляде на картинку)

Для валидации используют DrawBench и T2I-CompBench.

Сначала исследуют взаимные корреляции между разными верификаторами на DrawBench.

Эстетичность коррелирует с ImageReward, но слегка понижает CLIP Score. Общее качество (по мнению Gemini) немного растет.
CLIP Score повышает ImageReward, но слегка понижает эстетичность. Общее качество слегка улучшается.
ImageReward повышает CLIP Score и оценку Gemini более существенно, эстетичность почти не меняется.
Ансамбль всех трех метрик улучшает все три метрики.

При увеличении количества сэмплов в ансамбле все метрики растут, но ImageReward значительнее всего (вероятно, из-за шкалы).

На максимуме ставят суммарное число прогонов через модель (2880 = 96 сэмплов х 30 шагов). Весьма забавно, что лучше всего себя показывает наивная стратегия независимой генерации случайных шумов, а остальные две, более заумные стратегии, не приносят пользы.

На T2I-CompBench, где оценивается соответствие промпту - взаимоотношения между объектами, формы, их положение, а не эстетичность, классификатор эстетичности слегка просаживает метрики, а CLIP Score и ImageReward улучшает. Причем ImageReward лучше ансамбля, по всей видимости, из-за наличия Aesthetic Score.

Предложенный метод работает и поверх DPO дообученной SDXL.

При фиксированном бюджете (если он мал) для SiT-XL выгоднее нагенерить несколько траекторий с меньшим количеством шагов, чем одну “дорогую”. Но с ростом доступного бюджета становится полезным повышать число шагов сэмплера.

Кроме того, на малых бюджетах меньшие версии SiT-B/L, генерирующее нескольких кандидатов, лучше чем один прогон через большую SiT-XL.

Выводы

С идейной точки зрения - направление исследований довольно интересное, однако польза пока еще не столь очевидна, как для LLM, где сложный reasoning процесс позволяет решать сложные задачи (недоступные без него), а здесь же приводит к некоторому улучшению метрик. На текущий момент процесс слишком дорогой для большинства практических приложений (ибо ждать несколько минут вместо нескольких секунд для создания немного более хорошей картинки не каждый готов, да и стоить сие будет у провайдеров недешево). Тем не менее, подход может быть использован для генерации высококачественной синтетики.
9👍1



tgoop.com/quant_prune_distill/409
Create:
Last Update:

Эксперименты

Для Text-2-Image генерации с FLUX в качестве верификаторов используют:
1️⃣ Классификатор эстетичности 💃 поверх OpenCLIP
2️⃣ CLIP Score
3️⃣ ImageReward
4️⃣ Ансамбль всех трех (с одинаковыми весами)

FLUXом гененируют по умолчанию в 30 шагов сэмплирования, SiT в 250.
Для оценки качества (не доверяя субъективного мнению кожаных мешков) используют Gemini-1.5-Flash, которая оценивает качество по 5 аспектам:
⚡️Accuracy to Prompt (соответствие запросу)
⚡️Originality (оригинальность)
⚡️Visual Quality (визуальное качество)
⚡️Internal Consistency (внутренняя консистентность)
⚡️Emotional Resonance (в душе не ебу, что это, возможно, степень шатания смотрящего от эмоций при взгляде на картинку)

Для валидации используют DrawBench и T2I-CompBench.

Сначала исследуют взаимные корреляции между разными верификаторами на DrawBench.

Эстетичность коррелирует с ImageReward, но слегка понижает CLIP Score. Общее качество (по мнению Gemini) немного растет.
CLIP Score повышает ImageReward, но слегка понижает эстетичность. Общее качество слегка улучшается.
ImageReward повышает CLIP Score и оценку Gemini более существенно, эстетичность почти не меняется.
Ансамбль всех трех метрик улучшает все три метрики.

При увеличении количества сэмплов в ансамбле все метрики растут, но ImageReward значительнее всего (вероятно, из-за шкалы).

На максимуме ставят суммарное число прогонов через модель (2880 = 96 сэмплов х 30 шагов). Весьма забавно, что лучше всего себя показывает наивная стратегия независимой генерации случайных шумов, а остальные две, более заумные стратегии, не приносят пользы.

На T2I-CompBench, где оценивается соответствие промпту - взаимоотношения между объектами, формы, их положение, а не эстетичность, классификатор эстетичности слегка просаживает метрики, а CLIP Score и ImageReward улучшает. Причем ImageReward лучше ансамбля, по всей видимости, из-за наличия Aesthetic Score.

Предложенный метод работает и поверх DPO дообученной SDXL.

При фиксированном бюджете (если он мал) для SiT-XL выгоднее нагенерить несколько траекторий с меньшим количеством шагов, чем одну “дорогую”. Но с ростом доступного бюджета становится полезным повышать число шагов сэмплера.

Кроме того, на малых бюджетах меньшие версии SiT-B/L, генерирующее нескольких кандидатов, лучше чем один прогон через большую SiT-XL.

Выводы

С идейной точки зрения - направление исследований довольно интересное, однако польза пока еще не столь очевидна, как для LLM, где сложный reasoning процесс позволяет решать сложные задачи (недоступные без него), а здесь же приводит к некоторому улучшению метрик. На текущий момент процесс слишком дорогой для большинства практических приложений (ибо ждать несколько минут вместо нескольких секунд для создания немного более хорошей картинки не каждый готов, да и стоить сие будет у провайдеров недешево). Тем не менее, подход может быть использован для генерации высококачественной синтетики.

BY КПД




Share with your friend now:
tgoop.com/quant_prune_distill/409

View MORE
Open in Telegram


Telegram News

Date: |

The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Read now Activate up to 20 bots To delete a channel with over 1,000 subscribers, you need to contact user support
from us


Telegram КПД
FROM American