tgoop.com/ai_python/17787
Last Update:
این پست از Peter W. J. Staar، یکی از اعضای ارشد تحقیقاتی در IBM Research Zurich، درباره معرفی مدل جدیدی به نام Granite-Docling برای پردازش اسناد است.
مدل Granite-Docling یک مدل چندحالته تصویری-زبانی (Visual Language Model) است که برای تبدیل اسناد به شکل دقیق و مقرونبهصرفه طراحی شده. این مدل ادامهدهندهی پروژهی قبلی به نام SmolDocling است و هدف آن فراهم کردن ابزارهای قدرتمند برای پردازش اسناد برای همه است.
تعداد پارامترها، فقط ۲۵۸ میلیون، که آن را بسیار سبک و سریع میکند.
ویژگی های اصلی :
تشخیص بهتر معادلات ریاضی، جداول، OCR، بلوکهای کد و معادلات درونخطی
حالتهای استنتاج منعطف (تمام صفحه یا ناحیهای)
رمزگشایی پایدارتر (جلوگیری از حلقههای بینهایت)
پاسخ به سوالات درباره ساختار و ترتیب عناصر سند
پشتیبانی آزمایشی از زبانهای ژاپنی، عربی و چینی
توضیحات کامل در بلاگ
دموی مدل در Hugging Face
مخزن Docling در GitHub