PYTHON_COMMUNITY_RU Telegram 2580
🖥 PDF Craft — это библиотека на Python, предназначенная для преобразования PDF (в первую очередь сканированных книг) в Markdown и EPUB, с использованием локальных AI-моделей и LLM для структурирования содержимого.

🌟 Основные возможности:

- Извлечение текста и макета. Используется комбинация DocLayout-YOLO и собственных алгоритмов для обнаружения и фильтрации заголовков, колонтитулов, сносок и номеров страниц.

- Локальный OCR. Распознаёт текст на странице с помощью OnnxOCR и поддерживает ускорение на GPU (CUDA).

- Определение порядка чтения. С помощью layoutreader создаётся поток текста в том порядке, который воспринимает человек.

- Конвертация в Markdown. Генерирует .md с относительными ссылками на изображения (иллюстрации, таблицы, формулы) в папке assets.

- Конвертация в EPUB. На основе промежуточных результатов OCR передаёт данные в LLM (рекомендуется DeepSeek) для создания оглавления, глав, исправления ошибок и добавления аннотаций.

Установка и требования: Python версии 3.10 или выше (рекомендуется 3.10.16).

Используйте команды pip install pdf-craft и pip install onnxruntime==1.21.0 (или onnxruntime-gpu==1.21.0 для CUDA).

Для EPUB-конвейера необходим доступ к LLM-сервису (например, DeepSeek).

🟡 GitHub (https://github.com/oomol-lab/pdf-craft)

@Python_Community_ru



tgoop.com/Python_Community_ru/2580
Create:
Last Update:

🖥 PDF Craft — это библиотека на Python, предназначенная для преобразования PDF (в первую очередь сканированных книг) в Markdown и EPUB, с использованием локальных AI-моделей и LLM для структурирования содержимого.

🌟 Основные возможности:

- Извлечение текста и макета. Используется комбинация DocLayout-YOLO и собственных алгоритмов для обнаружения и фильтрации заголовков, колонтитулов, сносок и номеров страниц.

- Локальный OCR. Распознаёт текст на странице с помощью OnnxOCR и поддерживает ускорение на GPU (CUDA).

- Определение порядка чтения. С помощью layoutreader создаётся поток текста в том порядке, который воспринимает человек.

- Конвертация в Markdown. Генерирует .md с относительными ссылками на изображения (иллюстрации, таблицы, формулы) в папке assets.

- Конвертация в EPUB. На основе промежуточных результатов OCR передаёт данные в LLM (рекомендуется DeepSeek) для создания оглавления, глав, исправления ошибок и добавления аннотаций.

Установка и требования: Python версии 3.10 или выше (рекомендуется 3.10.16).

Используйте команды pip install pdf-craft и pip install onnxruntime==1.21.0 (или onnxruntime-gpu==1.21.0 для CUDA).

Для EPUB-конвейера необходим доступ к LLM-сервису (например, DeepSeek).

🟡 GitHub (https://github.com/oomol-lab/pdf-craft)

@Python_Community_ru

BY Python Community




Share with your friend now:
tgoop.com/Python_Community_ru/2580

View MORE
Open in Telegram


Telegram News

Date: |

3How to create a Telegram channel? Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you:
from us


Telegram Python Community
FROM American