Этот Python проект представляет собой инструмент для преобразования изображений и PDF-документов в текст в формате Markdown и JSON с высоким уровнем точности.
💡Поддерживаются табличные данные и математические формулы.
В основе проекта лежит использование FastAPI, а для асинхронной обработки задач применяется Celery.
Для кэширования результатов оптического распознавания символов (OCR) используется Redis.
В проекте реализованы разные методы конвертации, среди которых Marker, Surya-OCR и Tesseract. Также предусмотрена функция удаления персональных данных.
✔️Установка: git clone https://github.com/CatchTheTornado/pdf-extract-api.git cd pdf-extract-api
Этот Python проект представляет собой инструмент для преобразования изображений и PDF-документов в текст в формате Markdown и JSON с высоким уровнем точности.
💡Поддерживаются табличные данные и математические формулы.
В основе проекта лежит использование FastAPI, а для асинхронной обработки задач применяется Celery.
Для кэширования результатов оптического распознавания символов (OCR) используется Redis.
В проекте реализованы разные методы конвертации, среди которых Marker, Surya-OCR и Tesseract. Также предусмотрена функция удаления персональных данных.
✔️Установка: git clone https://github.com/CatchTheTornado/pdf-extract-api.git cd pdf-extract-api
Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). bank east asia october 20 kowloon Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Content is editable within two days of publishing As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail.
from us