[PYTHON:TODAY]@python2day P.7040

🔥

Kreuzberg — умный фреймворк для работы с документами на Python.

Надоело вручную вытаскивать текст и данные из PDF, Word или сканов? Теперь это можно делать в один вызов API.

Что умеет:
📄 Извлечение текста с сохранением структуры и форматирования.
🧾 Метаданные: автор, язык, дата создания, ключевые слова.
🌍 Поддержка 18 форматов (PDF, Office, HTML, изображения и др.).
👁 OCR (Tesseract, EasyOCR, PaddleOCR) — распознавание текста со сканов и фото.
📊 Извлечение таблиц с точностью до ячейки.
🤖 Автоматическая классификация документов (контракты, счета, отчёты и т.п.).

Технические фишки:

💬 Производительность — до 30+ документов/сек;
💬 Малый вес (71MB) и низкое потребление памяти;
💬 Плагинная архитектура — можно писать свои экстеншены;
💬 Полная поддержка синхронного и асинхронного API.

👨‍💻

Примеры использования:

CLI:

# Извлечь текст
uvx kreuzberg extract document.pdf > output.txt

# OCR + таблицы
uvx --from "kreuzberg[all]" kreuzberg extract invoice.pdf --ocr-backend tesseract --output-format text

Python (async):

from kreuzberg import extract_file

result = await extract_file("presentation.pptx")
print(result.content)
print(result.metadata.title, result.metadata.author)

Подходит для:
🟢автоматизации документооборота;
🟢систем анализа контрактов и счетов;
🟢интеграции в web-приложения.

♎️

GitHub/Инструкция

#python #soft #code #github

Please open Telegram to view this post

VIEW IN TELEGRAM

👍46🔥30❤12

www.tgoop.com/python2day/7040

12.2K viewsAug 28 at 07:03

tgoop.com/python2day/7040

Create: 2025-08-28
Last Update: 2025-10-23 21:14:01

🔥 Kreuzberg — умный фреймворк для работы с документами на Python.

Надоело вручную вытаскивать текст и данные из PDF, Word или сканов? Теперь это можно делать в один вызов API.

Что умеет:
📄 Извлечение текста с сохранением структуры и форматирования.
🧾 Метаданные: автор, язык, дата создания, ключевые слова.
🌍 Поддержка 18 форматов (PDF, Office, HTML, изображения и др.).
👁 OCR (Tesseract, EasyOCR, PaddleOCR) — распознавание текста со сканов и фото.
📊 Извлечение таблиц с точностью до ячейки.
🤖 Автоматическая классификация документов (контракты, счета, отчёты и т.п.).

Технические фишки:

💬 Производительность — до 30+ документов/сек;
💬 Малый вес (71MB) и низкое потребление памяти;
💬 Плагинная архитектура — можно писать свои экстеншены;
💬 Полная поддержка синхронного и асинхронного API.

👨‍💻 Примеры использования:

CLI:

# Извлечь текст
uvx kreuzberg extract document.pdf > output.txt

# OCR + таблицы
uvx --from "kreuzberg[all]" kreuzberg extract invoice.pdf --ocr-backend tesseract --output-format text

Python (async):

from kreuzberg import extract_file

result = await extract_file("presentation.pptx")
print(result.content)
print(result.metadata.title, result.metadata.author)

♎️

GitHub/Инструкция

#python #soft #code #github

Telegram News

🔥 Kreuzberg — умный фреймворк для работы с документами на Python.