tgoop.com/DataScience_Association/885
Create:
Last Update:
Last Update:
👨🏻💻کتابخانهی پایتون فوق به شما کمک میکند از فایلهای پیچیده مانند جدولها، عکسها، نمودارها یا اسناد چندصفحهای، دادههای قابل استفاده برای مدلهای زبانی استخراج کنید.
📝 ایدهی Agentic Document Extraction این است که برخلاف روشهای معمول مثل OCR که فقط متن رو میخوانند، میتواند ساختار و رابطهی بین بخشهای مختلف سند را هم بفهم . مثلاً میفهمد یک عنوان مربوط به کدام جدول یا تصویر است.
✅ با PDF، عکس و لینک سایتها کار میکند.
☑️ میتواند سندهای خیلی بزرگ (تا ۱۰۰۰ صفحه) را خود تکهتکه و پردازش کند.
✔️ خروجی را هم بهصورت JSON میدهد و به صورت هم Markdown.
☑️ حتی محل دقیق هر بخش روی صفحه را مشخص میکند.
✔️ از پردازش موازی و دستهای پشتیبانی میکند.
pip install agentic-doc
┌ 📚 Agentic Document Extraction
├ 🌐 Website
└ 💻 GitHub-Repos
در کانال انجمن علوم داده با ما همراه باشید🌱
| @DataScience_Association |
BY انجمن علوم داده
Share with your friend now:
tgoop.com/DataScience_Association/885