π img2table β ΠΠΎΠ»Π΅Π·Π½ΡΠΉ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ Π°Π²ΡΠΎΠΌΠ°ΡΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΠ΅ ΡΠ°Π±Π»ΠΈΡ ΠΈΠ· ΡΠΊΠ°Π½ΠΈΡΠΎΠ²Π°Π½Π½ΡΡ
Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² ΠΈΠ»ΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ.
π ΠΡΠ½ΠΎΠ²Π½ΡΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ:π’ Π Π°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΠ΅ ΡΠ°Π±Π»ΠΈΡ Π½Π° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΡ
ΠΈ Π² PDF-ΡΠ°ΠΉΠ»Π°Ρ
, Π²ΠΊΠ»ΡΡΠ°Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΡ ΡΠ»ΠΎΠΆΠ½ΡΡ
ΡΡΡΡΠΊΡΡΡ Ρ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΌΠΈ ΡΡΠ΅ΠΉΠΊΠ°ΠΌ.
π’ ΠΠ½ΡΠ΅Π³ΡΠ°ΡΠΈΡ Ρ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠΌΠΈ OCR-ΡΠ΅ΡΠ²ΠΈΡΠ°ΠΌΠΈ, ΡΠ°ΠΊΠΈΠΌΠΈ ΠΊΠ°ΠΊ Tesseract, PaddleOCR, EasyOCR, Google Vision, AWS Textract ΠΈ Azure Cognitive Service.
π’ ΠΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ ΡΠΊΡΠΏΠΎΡΡΠ° ΠΈΠ·Π²Π»Π΅ΡΡΠ½Π½ΡΡ
ΡΠ°Π±Π»ΠΈΡ Π² ΡΠΎΡΠΌΠ°Ρ Excel ΠΈΠ»ΠΈ Pandas DataFrame, ΡΠΎΡ
ΡΠ°Π½ΡΡ ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΡΡ ΡΡΡΡΠΊΡΡΡ.
π’ ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° ΡΠ°Π·Π»ΠΈΡΠ½ΡΡ
ΡΠΎΡΠΌΠ°ΡΠΎΠ² ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ: JPEG, PNG, TIFF ΠΈ Π΄ΡΡΠ³ΠΈ.
βοΈ Π£ΡΡΠ°Π½ΠΎΠ²ΠΊΠ°:pip install img2table
ΠΠ»Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΠ½Π½ΡΠΌ OCR-ΡΠ΅ΡΠ²ΠΈΡΠΎΠΌ:pip install img2table[tesseract] # ΠΈΠ»ΠΈ [paddle], [easyocr], [gcp], [aws], [azure]
ΠΡΠΈΠΌΠ΅Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ:from img2table.document import Image
from img2table.ocr import TesseractOCR
# ΠΠ½ΠΈΡΠΈΠ°Π»ΠΈΠ·Π°ΡΠΈΡ OCR
ocr = TesseractOCR()
# ΠΠ°Π³ΡΡΠ·ΠΊΠ° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ
img = Image("ΠΏΡΡΡ_ΠΊ_ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ.jpg")
# ΠΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΠ΅ ΡΠ°Π±Π»ΠΈΡ
tables = img.extract_tables(ocr=ocr)
# ΠΠΎΠ»ΡΡΠ΅Π½ΠΈΠ΅ ΠΏΠ΅ΡΠ²ΠΎΠΉ ΡΠ°Π±Π»ΠΈΡΡ Π² Π²ΠΈΠ΄Π΅ DataFrame
df = tables[0].df
ΠΠ»Π°Π³ΠΎΠ΄Π°ΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ OpenCV, img2table ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎ ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π½Π° CPU, Π½Π΅ ΡΡΠ΅Π±ΡΡ ΠΌΠΎΡΠ½ΡΡ
Π²ΡΡΠΈΡΠ»ΠΈΡΠ΅Π»ΡΠ½ΡΡ
ΡΠ΅ΡΡΡΡΠ².
5οΈβ£ GitHub/ΠΠ½ΡΡΡΡΠΊΡΠΈΡπ ΠΠΎΡΠΎΠ²ΡΠΉ ΡΠΊΡΠΈΠΏΡ Π² Π°ΡΡ
ΠΈΠ²Π΅#python #soft #code