tgoop.com/quant_prune_distill/476
Last Update:
Однако данное сравнение вызывает ряд вопросов:
1️⃣ Разные подходы используют разные модели. Поэтому невозможно достоверно определить, вызвана ли разница превосходством ARD метода или тем, что базовая EMU модель просто лучше бейзлайнов.
2️⃣ FID считается на 5к сэмплах, что может быть недостаточно (учитывая шумность FID). Полагаю, что Meta не испытывает такую нехватку в ресурсах, что им неподьемно посчитать метрики в стандартном протоколе на 30к промптов.
3️⃣ Авторы замечают, что на больших моделях просадки метрик меньше - и так EMU модель меньше SDXL, и просадка меньше, то якобы подход меньше сажает качество по сравнению с альтернативными дистилляционными подходами. Данный аргумент не убедителен, так как сложность дистилляции определяется рядом факторов - таких как обучающие данные, архитектура модели (UNet или DiT), специфика SFT и RL (если он был). Кроме того данная EMU модель, скорее всего. обучалась на Flow Matching.
4️⃣ Нет чисел по скорости 🏃 инференса для EMU моделей. Для генерации в 1k, где картиночных токенов становится достаточно много, Self Attention на расширенную последовательность перестанет быть настолько безобидным (даже при учете того, что он возникает только в первых блоках).
Выводы
Сама идея и реализация выглядит довольно интересной с нетривиальным архитектурными решениями. Однако, протокол сравнения в text-2-image вызывает смутные сомнения. Как мне кажется, валидация всякого метода должна проводиться в контролируемых условиях - когда предложенный метод и альтернативы находятся в равных условиях. В данном случае более, чем уместно было бы провести эксперименты на публичных моделях (SDXL, SD-3.5) при сравнении с DMD2 и прочими дистилляциями на тех же самых данных, либо уж все на EMU. А также привести время инференса для дистилированной EMU модели и какой-то user preference study 🧍♂.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/476