Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/quant_prune_distill/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
КПД@quant_prune_distill P.476
QUANT_PRUNE_DISTILL Telegram 476
Однако данное сравнение вызывает ряд вопросов:

1️⃣ Разные подходы используют разные модели. Поэтому невозможно достоверно определить, вызвана ли разница превосходством ARD метода или тем, что базовая EMU модель просто лучше бейзлайнов.
2️⃣ FID считается на 5к сэмплах, что может быть недостаточно (учитывая шумность FID). Полагаю, что Meta не испытывает такую нехватку в ресурсах, что им неподьемно посчитать метрики в стандартном протоколе на 30к промптов.
3️⃣ Авторы замечают, что на больших моделях просадки метрик меньше - и так EMU модель меньше SDXL, и просадка меньше, то якобы подход меньше сажает качество по сравнению с альтернативными дистилляционными подходами. Данный аргумент не убедителен, так как сложность дистилляции определяется рядом факторов - таких как обучающие данные, архитектура модели (UNet или DiT), специфика SFT и RL (если он был). Кроме того данная EMU модель, скорее всего. обучалась на Flow Matching.
4️⃣ Нет чисел по скорости 🏃 инференса для EMU моделей. Для генерации в 1k, где картиночных токенов становится достаточно много, Self Attention на расширенную последовательность перестанет быть настолько безобидным (даже при учете того, что он возникает только в первых блоках).

Выводы

Сама идея и реализация выглядит довольно интересной с нетривиальным архитектурными решениями. Однако, протокол сравнения в text-2-image вызывает смутные сомнения. Как мне кажется, валидация всякого метода должна проводиться в контролируемых условиях - когда предложенный метод и альтернативы находятся в равных условиях. В данном случае более, чем уместно было бы провести эксперименты на публичных моделях (SDXL, SD-3.5) при сравнении с DMD2 и прочими дистилляциями на тех же самых данных, либо уж все на EMU. А также привести время инференса для дистилированной EMU модели и какой-то user preference study 🧍‍♂.



tgoop.com/quant_prune_distill/476
Create:
Last Update:

Однако данное сравнение вызывает ряд вопросов:

1️⃣ Разные подходы используют разные модели. Поэтому невозможно достоверно определить, вызвана ли разница превосходством ARD метода или тем, что базовая EMU модель просто лучше бейзлайнов.
2️⃣ FID считается на 5к сэмплах, что может быть недостаточно (учитывая шумность FID). Полагаю, что Meta не испытывает такую нехватку в ресурсах, что им неподьемно посчитать метрики в стандартном протоколе на 30к промптов.
3️⃣ Авторы замечают, что на больших моделях просадки метрик меньше - и так EMU модель меньше SDXL, и просадка меньше, то якобы подход меньше сажает качество по сравнению с альтернативными дистилляционными подходами. Данный аргумент не убедителен, так как сложность дистилляции определяется рядом факторов - таких как обучающие данные, архитектура модели (UNet или DiT), специфика SFT и RL (если он был). Кроме того данная EMU модель, скорее всего. обучалась на Flow Matching.
4️⃣ Нет чисел по скорости 🏃 инференса для EMU моделей. Для генерации в 1k, где картиночных токенов становится достаточно много, Self Attention на расширенную последовательность перестанет быть настолько безобидным (даже при учете того, что он возникает только в первых блоках).

Выводы

Сама идея и реализация выглядит довольно интересной с нетривиальным архитектурными решениями. Однако, протокол сравнения в text-2-image вызывает смутные сомнения. Как мне кажется, валидация всякого метода должна проводиться в контролируемых условиях - когда предложенный метод и альтернативы находятся в равных условиях. В данном случае более, чем уместно было бы провести эксперименты на публичных моделях (SDXL, SD-3.5) при сравнении с DMD2 и прочими дистилляциями на тех же самых данных, либо уж все на EMU. А также привести время инференса для дистилированной EMU модели и какой-то user preference study 🧍‍♂.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/476

View MORE
Open in Telegram


Telegram News

Date: |

Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Image: Telegram. Step-by-step tutorial on desktop: “[The defendant] could not shift his criminal liability,” Hui said. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name.
from us


Telegram КПД
FROM American