tgoop.com/quant_prune_distill/153
Last Update:
Эксперименты
Метод валидируют на DreamBooth и других задачах conditional генерации - на основе keypoints и сегментационных масок.
Дообучение всей модели методом DreamBooth сколь-либо продолжительное время приводит к генерации сильных артефактов. LoRA выглядит несколько лучше, но все равно начинает генерировать артефакты. OFT и COFT даже после большого числа шагов выдают хорошие картинки в приведенных примерах.
По метрикам качества - похожести DINO эмбедов, соотвествия текстовому и картичному промпту OFT опережает бейзлайны.
В задаче контролируемой генерации лиц по ключевым точкам OFT сходится быстрее чем конкуретные LoRA, Text2Image адаптер и ControlNet, при этом достигая более высокого качества.
Аналогичный результат достигается и для генерации по маскам сегментации.
Вывод
Выглядит как вполне неплохой и разумный адаптер. Основной областью применения скорее всего будут диффузионные модели, тушки из компьютерного зрения и небольшие по современным меркам языковые модели. А вообще интересный вопрос - какой самый эффективный адаптер по числу параметров в зависимости от задачи, и какие исходя из каких соображений следует выбирать тот или иной метод PEFT под конкретное приложение?
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/153