tgoop.com/quant_prune_distill/108
Last Update:
Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model
[Статья][Кода нет]
Диффузионные модели в процессе обучения нелегкому искусству расшумления картинок (и прочих данных) попутно выучивают представления, которые могут быть применены в других приложениях.
Ранее было показано, что на промежуточных активациях UNet-а можно обучить линейный классификатор, который дает неплохое качество на задаче сегментации.
Кроме того, хоть обучающая выборка не содержит явно информацию о расположении объектов в трехмерном пространстве, диффузионные модели обладают понятием о 3d-геометрии. В ряде работ было продемонстрировано, что сеть для генерации изображений можно без файнтьюнинга превратить в генератор объёмных моделей.
В данной работе, авторы находят еще 2 применения внутренним представлениям - salient object distinction и depth estimation.
Постановка
В данной статье используются промежуточные представления StableDiffusion. Важно, что именно первой версии, ибо вторая обучалась с depth prior и явно получала информацию о картах глубины. Тем интереснее, что сеть сама по себе имеет понятие о глубине и расстояниях.
Предполагая, что внутренние представления сети уже достаточно информативны себя, можно предположить, что даже простой классификатор, линейный слой поверх признаков будет давать неплохое качество. В данной работе берут признаки с разных attention слоев, так как ранее данные feature maps были наиболее полезны в прошлых работах.
Рассматривают две постановки задачи - discrete binary depth, где предполагается разделять примечательные объекты и фон, и continious depth estimation с вещественными метками.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/108