QUANT_PRUNE_DISTILL Telegram 238
Эксперименты

Подход валидируют на class-conditional генерации на ImageNet-1k в разрешении 256x256 и 512x512.

Если смотреть на графики FID на Figure 1, складывается впечатления, что вообще красота - победа c разгромным счетом на DiT-бейзлайнами. Однако, взгляд придирчивого читателя обнаружит некие нюансы 🧐. В таблице их лучшая модель генерирует изображение 256x256 за 1 секунду, а на графике будто бы за 0.3 сек. Если бахнуть StyleGAN-2 (StyleGAN-XL) на этот график, то те будут смотреться Парето-оптимальнее их модельки. Хотя о чем вообще базар: FID - мера оверфита под InceptionV3. По precision/recall неплохо, но не лучше всех.

На 512x512 тоже все солидно, опережают DiT, MaskGiT.

Далее показывают, что модель демонстрирует ярко выраженные scaling-laws, хорошую масштабируемость. Встает вопрос - а у чего нет scaling laws?

Визуально качество с размером модели тоже улучшается - малые модели генерируют дефектные изображения, а большие - уже вполне добротные.

Еще модель может в inpainting 🧑‍🎨, outpainting 👨‍🎨 и class-conditional editing 📝.

В ablation показывают следующее:
1️⃣ VAR парадигма рулит по сравнению с AR
2️⃣ AdaLN чутка накидывает по сравнению с unconditional LN
3️⃣ Top-k sampling тоже накидывает
4️⃣ CFG-накидывает. Хоть тут и не диффузия, но тоже можно определить его подобным образом.
5️⃣ Увеличение размера тоже накидывает.

Выводы

Прикольная и интересная идея, но непонятно, насколько масштабируется на более сложную задачу text-2-image диффузии. Есть опасение, что одношаговый алгоритм генерации будет страдать разнообразием по сравнению с современными диффузионными моделями. А может регулирование температуры сэмплирования даст разнообразие в той степени, какой оно нужно для целевого приложения.
🤔6👍1



tgoop.com/quant_prune_distill/238
Create:
Last Update:

Эксперименты

Подход валидируют на class-conditional генерации на ImageNet-1k в разрешении 256x256 и 512x512.

Если смотреть на графики FID на Figure 1, складывается впечатления, что вообще красота - победа c разгромным счетом на DiT-бейзлайнами. Однако, взгляд придирчивого читателя обнаружит некие нюансы 🧐. В таблице их лучшая модель генерирует изображение 256x256 за 1 секунду, а на графике будто бы за 0.3 сек. Если бахнуть StyleGAN-2 (StyleGAN-XL) на этот график, то те будут смотреться Парето-оптимальнее их модельки. Хотя о чем вообще базар: FID - мера оверфита под InceptionV3. По precision/recall неплохо, но не лучше всех.

На 512x512 тоже все солидно, опережают DiT, MaskGiT.

Далее показывают, что модель демонстрирует ярко выраженные scaling-laws, хорошую масштабируемость. Встает вопрос - а у чего нет scaling laws?

Визуально качество с размером модели тоже улучшается - малые модели генерируют дефектные изображения, а большие - уже вполне добротные.

Еще модель может в inpainting 🧑‍🎨, outpainting 👨‍🎨 и class-conditional editing 📝.

В ablation показывают следующее:
1️⃣ VAR парадигма рулит по сравнению с AR
2️⃣ AdaLN чутка накидывает по сравнению с unconditional LN
3️⃣ Top-k sampling тоже накидывает
4️⃣ CFG-накидывает. Хоть тут и не диффузия, но тоже можно определить его подобным образом.
5️⃣ Увеличение размера тоже накидывает.

Выводы

Прикольная и интересная идея, но непонятно, насколько масштабируется на более сложную задачу text-2-image диффузии. Есть опасение, что одношаговый алгоритм генерации будет страдать разнообразием по сравнению с современными диффузионными моделями. А может регулирование температуры сэмплирования даст разнообразие в той степени, какой оно нужно для целевого приложения.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/238

View MORE
Open in Telegram


Telegram News

Date: |

A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Invite up to 200 users from your contacts to join your channel It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content.
from us


Telegram КПД
FROM American