tgoop.com/quant_prune_distill/521
Last Update:
🧪Эксперименты
Модельку валидируют на наборе text-2-image и editing бенчмарков. Qwen-Image выдает сильные результаты на GenEval, DPG, в целом опережая опенсорс и даже GPT-Image. На задачах рендеринга текста околосотовый результат на английском и разрывной на китайском (+100500 social credits).
На instruction датасетах вроде бы все тоже очень здорово. Везде не уступает (якобы) GPT-Image опять же с большим разрывом на китайском.
Дообученный VAE демонстрирует лучший PSNR/SSIM (чтобы это ни значило) по сравнению с конкурентными автокодировщиками. Причем разница особенно заметна на текстах.
Еще оно может в детекцию, novel view synthesis и прочие задачи.
💡 Выводы
Очередной качественный опенсорс от китайцев 🇨🇳 💪. Прямо чего-то фундаментального нового, прорывного нет, но видна кропотливая аккуратная работа с использованием всех лучших практик из научной литературы.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/521