tgoop.com/quant_prune_distill/188
Last Update:
Эксперименты
Модель обучали на 150M изображениях из Pali, 750к шагов на разрешении 256x256 и 250к шагов на 512x512. Качество замеряют по FID и CLIP на 30k изображениях из MS-COCO, следуя стандартной практике.
Кроме базовой модели MD (Mobile Diffusion) c 400M параметров, обучают еще более компактную версию MD-Lite c 300M параметрами.
На приложенных картинках все модели генерируют примерно одинаково хорошо, на одном уровне с SDXL, что с 50 шагами сэмплера, что с прогрессивной дистилляцией в 8 шагов, что с UFOGen в одношаговое сэмплирование.
По метрикам MD, сэмплирующая в 50 шагов, на уровне SD-v1.5, 8 шагов имеет немного худший FID, и одношаговая уже просаживается заметно.
По скорости выходит вполне себе здорово. При сэмплировании в 8 шагов, MD почти в 2 раза быстрее разобранной ранее SnapFusion, которую тоже дистиллировали в 8 шагов генерации. А в режиме одношаговой генерации удается достичь скорости в 238мс на изображение (при замерах на iPhone 15).
Вывод
Достойный технический результат с использованием разных техник и приемов из прошлой литературы. Однако, для полноты неплохо было бы иметь Side-by-Side evaluation c SD, и замеры разнообразия генераций.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/188