tgoop.com/ai_machinelearning_big_data/7787
Last Update:
📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений
Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики. 
Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.
Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек  
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты
Архитектура:
• Визуальный энкодер — Swin Transformer  
• Текстовый декодер — MBart  
• Управление через промпты  
📌 Возможности:
• Постраничная обработка документа  
• Точечный парсинг отдельных элементов (например, таблиц)  
• Высокая точность и скорость  работы модели
• Открытая MIT-лицензия
Установка:git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin
• Github 
• HF
• Demo
@ai_machinelearning_big_data
#ocr #ByteDance
BY Machinelearning
Share with your friend now:
tgoop.com/ai_machinelearning_big_data/7787
