🔥 Kreuzberg — умный фреймворк для работы с документами на Python.Надоело вручную вытаскивать текст и данные из PDF, Word или сканов? Теперь это можно делать
в один вызов API.
Что умеет:📄 Извлечение текста с сохранением структуры и форматирования.
🧾 Метаданные: автор, язык, дата создания, ключевые слова.
🌍 Поддержка 18 форматов (PDF, Office, HTML, изображения и др.).
👁 OCR (Tesseract, EasyOCR, PaddleOCR) — распознавание текста со сканов и фото.
📊 Извлечение таблиц с точностью до ячейки.
🤖 Автоматическая классификация документов (контракты, счета, отчёты и т.п.).
Технические фишки:💬 Производительность — до 30+ документов/сек;
💬 Малый вес (71MB) и низкое потребление памяти;
💬 Плагинная архитектура — можно писать свои экстеншены;
💬 Полная поддержка синхронного и асинхронного API.
👨💻 Примеры использования:CLI:# Извлечь текст
uvx kreuzberg extract document.pdf > output.txt
# OCR + таблицы
uvx --from "kreuzberg[all]" kreuzberg extract invoice.pdf --ocr-backend tesseract --output-format text
Python (async):from kreuzberg import extract_file
result = await extract_file("presentation.pptx")
print(result.content)
print(result.metadata.title, result.metadata.author)
Подходит для:🟢автоматизации документооборота;
🟢систем анализа контрактов и счетов;
🟢интеграции в web-приложения.
♎️ GitHub/Инструкция#python #soft #code #github