QUANT_PRUNE_DISTILL Telegram 97
Эксперименты

Процедура дистилляции выходит относительно бюджетной по нынешним меркам: обучение самой большой модели BK-SDM Base занимает 300 часов на одной A100.

Для оценки качества генераций модели используется стандартный бенчмарк MS-COCO на реалистичность изображений и соответствие описанию картинки. Дистиллированые BK-SDM несколько просаживаются по метрикам по сравнению с материнской моделью, тем не менее, обладают все еще неплохим качеством генераций. Что интересно, оптимальное качество (по FID) достигается еще до последней итерации.

Авторы демонстрируют, что BK-SDM генерирует лучше GANов, хотя осмысленность подобного сравнения без сопоставления времени генераций выглядит сомнительной.

Полученные модели позволяют генерировать картинку на 30-40% (в зависимости от размера), быстрее чем исходная SD v1.4.

Далее авторы проводят ablation. Инициализация модели-ученика весами Stable Diffusion работает на порядок лучше, чем с нуля, что ожидаемо, учитывая короткое время обучения. Оба лосса в дистилляции - на выходе модели и на уровне промежуточных активаций полезны, и улучшают качество. Больший размер батча немного лучше, чем меньший в среднем по метрикам.

На специализированной генерации с DreamBooth дистиллированные модели почти не уступают базовой Stable Diffusion.

Заключение

Данная статья достигает довольно неплохих результатов по сжатию моделей в условиях ограниченных ресурсов, используя стандартные методы из дистилляции трансформеров. Совсем просадки по качеству избежать не удалось, и, сжатые модели, по всей видимости, более специализированы под генерацию в стиле LAION Aestethics, и, скорее всего, проседают более заметно на промптах из другого распределения. Однако, сама возможность восстановить качество, близкое к исходному, за счет отбрасывания некоторых блоков, говорит о том, что есть некоторая свобода и простор в направлении оптимизации архитектур для диффузионных моделей. Классификаторы ImageNet-1k и бэкбоуны для детекции/сегментации на MSCOCO несколько приелись.



tgoop.com/quant_prune_distill/97
Create:
Last Update:

Эксперименты

Процедура дистилляции выходит относительно бюджетной по нынешним меркам: обучение самой большой модели BK-SDM Base занимает 300 часов на одной A100.

Для оценки качества генераций модели используется стандартный бенчмарк MS-COCO на реалистичность изображений и соответствие описанию картинки. Дистиллированые BK-SDM несколько просаживаются по метрикам по сравнению с материнской моделью, тем не менее, обладают все еще неплохим качеством генераций. Что интересно, оптимальное качество (по FID) достигается еще до последней итерации.

Авторы демонстрируют, что BK-SDM генерирует лучше GANов, хотя осмысленность подобного сравнения без сопоставления времени генераций выглядит сомнительной.

Полученные модели позволяют генерировать картинку на 30-40% (в зависимости от размера), быстрее чем исходная SD v1.4.

Далее авторы проводят ablation. Инициализация модели-ученика весами Stable Diffusion работает на порядок лучше, чем с нуля, что ожидаемо, учитывая короткое время обучения. Оба лосса в дистилляции - на выходе модели и на уровне промежуточных активаций полезны, и улучшают качество. Больший размер батча немного лучше, чем меньший в среднем по метрикам.

На специализированной генерации с DreamBooth дистиллированные модели почти не уступают базовой Stable Diffusion.

Заключение

Данная статья достигает довольно неплохих результатов по сжатию моделей в условиях ограниченных ресурсов, используя стандартные методы из дистилляции трансформеров. Совсем просадки по качеству избежать не удалось, и, сжатые модели, по всей видимости, более специализированы под генерацию в стиле LAION Aestethics, и, скорее всего, проседают более заметно на промптах из другого распределения. Однако, сама возможность восстановить качество, близкое к исходному, за счет отбрасывания некоторых блоков, говорит о том, что есть некоторая свобода и простор в направлении оптимизации архитектур для диффузионных моделей. Классификаторы ImageNet-1k и бэкбоуны для детекции/сегментации на MSCOCO несколько приелись.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/97

View MORE
Open in Telegram


Telegram News

Date: |

SUCK Channel Telegram How to create a business channel on Telegram? (Tutorial) Healing through screaming therapy How to Create a Private or Public Channel on Telegram? On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information.
from us


Telegram КПД
FROM American