Machinelearning@ai_machinelearning_big

📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений

Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.

Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.

Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты

Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты

📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия

Установка:

git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin

• Github
• HF
• Demo

@ai_machinelearning_big_data

#ocr #ByteDance

❤81👍41🔥21🥰4💋3🥱2💘2👏1

www.tgoop.com/ai_machinelearning_big_data/7787

23.5K viewsJun 14 at 12:01

tgoop.com/ai_machinelearning_big_data/7787

Create: 2025-06-14
Last Update: 2025-10-31 04:47:26

BY Machinelearning

Share with your friend now:
tgoop.com/ai_machinelearning_big_data/7787

Telegram News

📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений