BigData@bigdata

BigData

🖼️ Describe Anything (DAM) — новая модель от NVIDIA и UC Berkeley, способная создавать подробные описания выбранных областей на изображениях и видео.

🔍 Что делает DAM?
• Генерирует детальные описания для указанных пользователем областей (точки, рамки, маски, штрихи) на изображениях и видео.
• Адаптируется к стилю и детализации описания по инструкции пользователя.
• Отвечает на вопросы о выделенных областях без дополнительного обучения.

🧠 Как это работает?
• Использует “focal prompt” — сочетание общего изображения и увеличенной области интереса.
• Интегрирует локальные и глобальные признаки через специализированную архитектуру.
• Обучена с помощью полусупервизируемого пайплайна DLC-SDP, расширяющего существующие датасеты.

📊 Почему это важно?
• Устанавливает новые стандарты в задачах детализированного описания изображений и видео.
• Превосходит предыдущие модели на 7 бенчмарках, включая PACO и Flickr30k Entities.
• Открытый код, модели и данные доступны для сообщества.

🔗 Подробнее: https://describe-anything.github.io/

Демо: https://huggingface.co/spaces/nvidia/describe-anything-model-demo

Код: https://github.com/NVlabs/describe-anything

👉 @bigdata_1

👍2

www.tgoop.com/bigdata_1/964

1.08K viewsApr 24 at 11:06

tgoop.com/bigdata_1/964

Create: 2025-04-24
Last Update: 2025-10-25 15:57:26

BY BigData

Share with your friend now:
tgoop.com/bigdata_1/964

Telegram News

🖼️ Describe Anything (DAM) — новая модель от NVIDIA и UC Berkeley