tgoop.com/learn_with_mehdi/149
Create:
Last Update:
Last Update:
سلام به همه امیدوارم خوب باشید.
برای یک پروژه یک اسکریپت با کمک لایبرری docling پیادهسازی کردم و با کمی تغییر و بهینهسازی ابزار pdf2csv درست کردم که میتونید باهاش از فایلهای pdf که جدول دارند خروجی csv یا xlsx بگیرید.
https://github.com/ghodsizadeh/pdf2csv
برای استفاده ازش کافیه اون رو نصب کنید.
pip install pdf2csv
و با دستور زیر در ترمینال
pdf2csv convert-cli example.pdf --output-dir ./output --output-format xlsx --rtl --verbose
یا با استفاده مستقیم در پایتون که در گیتهاب راهنماش هست ازش استفاده کنید.
چند ویژگی این ابزار
- پشتیبانی از زبان فارسی و اصلاح متن (مثلا تبدیل روشک به کشور) که در فایلهای فارسی اتفاق رایجی هست
- تبدیل اعداد به تایپ صحیح در دیتافریم
ممنون میشم که این ابزار رو تست کنید، اگر جایی مشکلی داشت اینجا یا در گیتهاب به من اطلاع بدید و اگر در گیتهاب اکانت دارید با یک ستاره از این پروژه حمایت کنید.
https://github.com/ghodsizadeh/pdf2csv
BY Learn With Mehdi

Share with your friend now:
tgoop.com/learn_with_mehdi/149