BIGDATAI Telegram 1047
Forwarded from Machinelearning
🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh



🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥21



tgoop.com/bigdatai/1047
Create:
Last Update:

🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh



🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab

BY Big Data AI






Share with your friend now:
tgoop.com/bigdatai/1047

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Write your hashtags in the language of your target audience. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” How to create a business channel on Telegram? (Tutorial) "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn.
from us


Telegram Big Data AI
FROM American