QUANT_PRUNE_DISTILL Telegram 108
Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model

[Статья][Кода нет]

Диффузионные модели в процессе обучения нелегкому искусству расшумления картинок (и прочих данных) попутно выучивают представления, которые могут быть применены в других приложениях.

Ранее было показано, что на промежуточных активациях UNet-а можно обучить линейный классификатор, который дает неплохое качество на задаче сегментации.

Кроме того, хоть обучающая выборка не содержит явно информацию о расположении объектов в трехмерном пространстве, диффузионные модели обладают понятием о 3d-геометрии. В ряде работ было продемонстрировано, что сеть для генерации изображений можно без файнтьюнинга превратить в генератор объёмных моделей.

В данной работе, авторы находят еще 2 применения внутренним представлениям - salient object distinction и depth estimation.

Постановка

В данной статье используются промежуточные представления StableDiffusion. Важно, что именно первой версии, ибо вторая обучалась с depth prior и явно получала информацию о картах глубины. Тем интереснее, что сеть сама по себе имеет понятие о глубине и расстояниях.

Предполагая, что внутренние представления сети уже достаточно информативны себя, можно предположить, что даже простой классификатор, линейный слой поверх признаков будет давать неплохое качество. В данной работе берут признаки с разных attention слоев, так как ранее данные feature maps были наиболее полезны в прошлых работах.

Рассматривают две постановки задачи - discrete binary depth, где предполагается разделять примечательные объекты и фон, и continious depth estimation с вещественными метками.
🔥2



tgoop.com/quant_prune_distill/108
Create:
Last Update:

Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model

[Статья][Кода нет]

Диффузионные модели в процессе обучения нелегкому искусству расшумления картинок (и прочих данных) попутно выучивают представления, которые могут быть применены в других приложениях.

Ранее было показано, что на промежуточных активациях UNet-а можно обучить линейный классификатор, который дает неплохое качество на задаче сегментации.

Кроме того, хоть обучающая выборка не содержит явно информацию о расположении объектов в трехмерном пространстве, диффузионные модели обладают понятием о 3d-геометрии. В ряде работ было продемонстрировано, что сеть для генерации изображений можно без файнтьюнинга превратить в генератор объёмных моделей.

В данной работе, авторы находят еще 2 применения внутренним представлениям - salient object distinction и depth estimation.

Постановка

В данной статье используются промежуточные представления StableDiffusion. Важно, что именно первой версии, ибо вторая обучалась с depth prior и явно получала информацию о картах глубины. Тем интереснее, что сеть сама по себе имеет понятие о глубине и расстояниях.

Предполагая, что внутренние представления сети уже достаточно информативны себя, можно предположить, что даже простой классификатор, линейный слой поверх признаков будет давать неплохое качество. В данной работе берут признаки с разных attention слоев, так как ранее данные feature maps были наиболее полезны в прошлых работах.

Рассматривают две постановки задачи - discrete binary depth, где предполагается разделять примечательные объекты и фон, и continious depth estimation с вещественными метками.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/108

View MORE
Open in Telegram


Telegram News

Date: |

Clear Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. The Standard Channel In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.”
from us


Telegram КПД
FROM American