tgoop.com/quant_prune_distill/97
Last Update:
Эксперименты
Процедура дистилляции выходит относительно бюджетной по нынешним меркам: обучение самой большой модели BK-SDM Base занимает 300 часов на одной A100.
Для оценки качества генераций модели используется стандартный бенчмарк MS-COCO на реалистичность изображений и соответствие описанию картинки. Дистиллированые BK-SDM несколько просаживаются по метрикам по сравнению с материнской моделью, тем не менее, обладают все еще неплохим качеством генераций. Что интересно, оптимальное качество (по FID) достигается еще до последней итерации.
Авторы демонстрируют, что BK-SDM генерирует лучше GANов, хотя осмысленность подобного сравнения без сопоставления времени генераций выглядит сомнительной.
Полученные модели позволяют генерировать картинку на 30-40% (в зависимости от размера), быстрее чем исходная SD v1.4.
Далее авторы проводят ablation. Инициализация модели-ученика весами Stable Diffusion работает на порядок лучше, чем с нуля, что ожидаемо, учитывая короткое время обучения. Оба лосса в дистилляции - на выходе модели и на уровне промежуточных активаций полезны, и улучшают качество. Больший размер батча немного лучше, чем меньший в среднем по метрикам.
На специализированной генерации с DreamBooth дистиллированные модели почти не уступают базовой Stable Diffusion.
Заключение
Данная статья достигает довольно неплохих результатов по сжатию моделей в условиях ограниченных ресурсов, используя стандартные методы из дистилляции трансформеров. Совсем просадки по качеству избежать не удалось, и, сжатые модели, по всей видимости, более специализированы под генерацию в стиле LAION Aestethics, и, скорее всего, проседают более заметно на промптах из другого распределения. Однако, сама возможность восстановить качество, близкое к исходному, за счет отбрасывания некоторых блоков, говорит о том, что есть некоторая свобода и простор в направлении оптимизации архитектур для диффузионных моделей. Классификаторы ImageNet-1k и бэкбоуны для детекции/сегментации на MSCOCO несколько приелись.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/97