Warning: file_put_contents(aCache/aDaily/post/bigdatai/-871-872-873-874-871-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Big Data AI@bigdatai P.874
BIGDATAI Telegram 874
Forwarded from Machinelearning
⚡️ Apple Depth Pro: Карта глубина с расчетом фокусного расстояния менее чем за секунду.

Depth Pro - базовая модель для метрической монокулярной оценки глубины по по одному изображению в режиме zero-shot. Она позволяет синтезировать Hi-Res карты глубины с высокой точностью определения границ объектов, воспроизводя их форму, расположение и абсолютный масштаб без использования метаданных камеры.

Архитектура модели основана на применении энкодеров ViT к фрагментам изображения, извлеченным в нескольких масштабах.

Используются два кодировщика ViT: фрагментный энкодер, обрабатывающий блоки изображения для изучения масштабно-инвариантных представлений и энкодер изображения, фиксирующий предсказания в глобальном контексте.

Модель работает с фиксированным разрешением 1536x1536 пикселей, а каждый из модулей ViT - 384x384 пикселей.

Для обучения используются 5 целевых функций (LMAE, LMSE, LMAGE, LMALE и LMSGE ) на основе канонической обратной глубины и применяется двухэтапный план обучения. Набор данных состоит из 43 датасетов.

Первый этап учит обобщающим признакам, основанным на смеси реальных и синтетических данных, а второй — повышению резкости границ на синтетических данных с точной информацией о глубине.

Модель показала высокую точность на различных наборах данных (Booster, ETH3D, Middlebury, nuScenes, Sintel и Sun-RGBD91011) .

Depth Pro превзошла другие методы по точности оценки фокусного расстояния на наборах данных DDDP, FiveK, PPR10K, RAISE, SPAQ и ZOOM.

Скорость инференса, замеренная в тестировании - 0,3 секунды на генерацию карты глубины 2,25-мегапиксельного изображения.

▶️ Локальная установка и инференс в CLI или Python:

# setting up a venv:
conda create -n depth-pro -y python=3.9
conda activate depth-pro
pip install -e .

# Download pretrained checkpoints:
source get_pretrained_models.sh

# Run the inference from CLI on a single image:
depth-pro-run -i ./data/example.jpg

# Running from python
from PIL import Image
import depth_pro

model, transform = depth_pro.create_model_and_transforms()
model.eval()
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"] # Depth in [m].
focallength_px = prediction["focallength_px"] # Focal length in pixels.



📌Лицензирование : Apple Sample Code license.



🟡Модель
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ViT #Depth #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2



tgoop.com/bigdatai/874
Create:
Last Update:

⚡️ Apple Depth Pro: Карта глубина с расчетом фокусного расстояния менее чем за секунду.

Depth Pro - базовая модель для метрической монокулярной оценки глубины по по одному изображению в режиме zero-shot. Она позволяет синтезировать Hi-Res карты глубины с высокой точностью определения границ объектов, воспроизводя их форму, расположение и абсолютный масштаб без использования метаданных камеры.

Архитектура модели основана на применении энкодеров ViT к фрагментам изображения, извлеченным в нескольких масштабах.

Используются два кодировщика ViT: фрагментный энкодер, обрабатывающий блоки изображения для изучения масштабно-инвариантных представлений и энкодер изображения, фиксирующий предсказания в глобальном контексте.

Модель работает с фиксированным разрешением 1536x1536 пикселей, а каждый из модулей ViT - 384x384 пикселей.

Для обучения используются 5 целевых функций (LMAE, LMSE, LMAGE, LMALE и LMSGE ) на основе канонической обратной глубины и применяется двухэтапный план обучения. Набор данных состоит из 43 датасетов.

Первый этап учит обобщающим признакам, основанным на смеси реальных и синтетических данных, а второй — повышению резкости границ на синтетических данных с точной информацией о глубине.

Модель показала высокую точность на различных наборах данных (Booster, ETH3D, Middlebury, nuScenes, Sintel и Sun-RGBD91011) .

Depth Pro превзошла другие методы по точности оценки фокусного расстояния на наборах данных DDDP, FiveK, PPR10K, RAISE, SPAQ и ZOOM.

Скорость инференса, замеренная в тестировании - 0,3 секунды на генерацию карты глубины 2,25-мегапиксельного изображения.

▶️ Локальная установка и инференс в CLI или Python:

# setting up a venv:
conda create -n depth-pro -y python=3.9
conda activate depth-pro
pip install -e .

# Download pretrained checkpoints:
source get_pretrained_models.sh

# Run the inference from CLI on a single image:
depth-pro-run -i ./data/example.jpg

# Running from python
from PIL import Image
import depth_pro

model, transform = depth_pro.create_model_and_transforms()
model.eval()
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"] # Depth in [m].
focallength_px = prediction["focallength_px"] # Focal length in pixels.



📌Лицензирование : Apple Sample Code license.



🟡Модель
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ViT #Depth #Apple

BY Big Data AI







Share with your friend now:
tgoop.com/bigdatai/874

View MORE
Open in Telegram


Telegram News

Date: |

Select “New Channel” With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013.
from us


Telegram Big Data AI
FROM American