tgoop.com/bigdata_1/964
Last Update:
🖼️ Describe Anything (DAM) — новая модель от NVIDIA и UC Berkeley, способная создавать подробные описания выбранных областей на изображениях и видео.
🔍 Что делает DAM?
• Генерирует детальные описания для указанных пользователем областей (точки, рамки, маски, штрихи) на изображениях и видео.
• Адаптируется к стилю и детализации описания по инструкции пользователя.
• Отвечает на вопросы о выделенных областях без дополнительного обучения.
🧠 Как это работает?
• Использует “focal prompt” — сочетание общего изображения и увеличенной области интереса.
• Интегрирует локальные и глобальные признаки через специализированную архитектуру.
• Обучена с помощью полусупервизируемого пайплайна DLC-SDP, расширяющего существующие датасеты.
📊 Почему это важно?
• Устанавливает новые стандарты в задачах детализированного описания изображений и видео.
• Превосходит предыдущие модели на 7 бенчмарках, включая PACO и Flickr30k Entities.
• Открытый код, модели и данные доступны для сообщества.
🔗 Подробнее: https://describe-anything.github.io/
Демо: https://huggingface.co/spaces/nvidia/describe-anything-model-demo
Код: https://github.com/NVlabs/describe-anything
👉 @bigdata_1
BY BigData

Share with your friend now:
tgoop.com/bigdata_1/964