Javascript@javascriptv P.1620

🔍

OmniParser — это инструмент от Microsoft, предназначенный для разбора и анализа интерфейсов приложений на основе скриншотов

OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.

Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.

OmniParser состоит из двух моделей:

🟢Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей.

🟢Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар "элемент-описание", созданных с помощью GPT-4o.

OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).

⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.

▶️Локальная установка и запуск в Gradio UI :


# Create conda env
conda create -n "omni" python==3.12
conda activate omni

# Install requirement
pip install -r requirement.txt

# Run Gradio UI
python gradio_demo.py

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

Набор моделей

🟡

Arxiv

🖥

Github

#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser

🖥

Github

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/javascriptv/1620

6.2K viewsedited Oct 31, 2024 at 12:01

tgoop.com/javascriptv/1620

Create: 2024-10-31
Last Update: 2025-07-06 05:15:06

🔍 OmniParser — это инструмент от Microsoft, предназначенный для разбора и анализа интерфейсов приложений на основе скриншотов

OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.

Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.

OmniParser состоит из двух моделей:

🟢Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей.

🟢Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар "элемент-описание", созданных с помощью GPT-4o.

OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).

⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.

▶️Локальная установка и запуск в Gradio UI :
# Create conda env conda create -n "omni" python==3.12 conda activate omni # Install requirement pip install -r requirement.txt # Run Gradio UI python gradio_demo.py
📌Лицензирование: MIT License.

🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥Github

#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser

🖥 Github

Telegram News

🔍 OmniParser — это инструмент от Microsoft