Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/extremecode/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
The ExtremeCode Times@extremecode P.1092
EXTREMECODE Telegram 1092
Кто-нибудь когда-нибудь парсил таблички из PDF файлов?

Недавно столкнулся с такой необходимостью, аж подприфигел с напряга. Это был наверное самый сложный прецедент для парсинга за всю мою все мое существование.

Думал, щас на пофиг вкачусь, выдерну голенький текст из файла и пройдусь регулярками. Ага, настолько путь в никуда, что даже и браться наверное не стоило (понял это примерно на 15-ой регулярке, т.к. набор столбцов у записей разный и формально под каждый тип строк нужна своя регулярка). В один момент даже OCR хотел подрубать.

В итоге решил проблемку по другому, правда пришлось распарсивать набор сущностей в PDF'ке. Размер страницы у PDF документов фиксированный, поэтому у каждого элемента на странице есть свои координаты.

Благо ширина столбцов в таблицах одинаковая, поэтому вывез чисто за счет смещений по X.
🤯382102🤓48👍41🗿14🌚7🍌6🍓3💘3❤‍🔥2



tgoop.com/extremecode/1092
Create:
Last Update:

Кто-нибудь когда-нибудь парсил таблички из PDF файлов?

Недавно столкнулся с такой необходимостью, аж подприфигел с напряга. Это был наверное самый сложный прецедент для парсинга за всю мою все мое существование.

Думал, щас на пофиг вкачусь, выдерну голенький текст из файла и пройдусь регулярками. Ага, настолько путь в никуда, что даже и браться наверное не стоило (понял это примерно на 15-ой регулярке, т.к. набор столбцов у записей разный и формально под каждый тип строк нужна своя регулярка). В один момент даже OCR хотел подрубать.

В итоге решил проблемку по другому, правда пришлось распарсивать набор сущностей в PDF'ке. Размер страницы у PDF документов фиксированный, поэтому у каждого элемента на странице есть свои координаты.

Благо ширина столбцов в таблицах одинаковая, поэтому вывез чисто за счет смещений по X.

BY The ExtremeCode Times




Share with your friend now:
tgoop.com/extremecode/1092

View MORE
Open in Telegram


Telegram News

Date: |

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. To view your bio, click the Menu icon and select “View channel info.” A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” A vandalised bank during the 2019 protest. File photo: May James/HKFP.
from us


Telegram The ExtremeCode Times
FROM American