PYTHON2DAY Telegram 7040
🔥 Kreuzberg — умный фреймворк для работы с документами на Python.

Надоело вручную вытаскивать текст и данные из PDF, Word или сканов? Теперь это можно делать в один вызов API.

Что умеет:
📄 Извлечение текста с сохранением структуры и форматирования.
🧾 Метаданные: автор, язык, дата создания, ключевые слова.
🌍 Поддержка 18 форматов (PDF, Office, HTML, изображения и др.).
👁 OCR (Tesseract, EasyOCR, PaddleOCR) — распознавание текста со сканов и фото.
📊 Извлечение таблиц с точностью до ячейки.
🤖 Автоматическая классификация документов (контракты, счета, отчёты и т.п.).

Технические фишки:

💬 Производительность — до 30+ документов/сек;
💬 Малый вес (71MB) и низкое потребление памяти;
💬 Плагинная архитектура — можно писать свои экстеншены;
💬 Полная поддержка синхронного и асинхронного API.

👨‍💻 Примеры использования:

CLI:

# Извлечь текст
uvx kreuzberg extract document.pdf > output.txt

# OCR + таблицы
uvx --from "kreuzberg[all]" kreuzberg extract invoice.pdf --ocr-backend tesseract --output-format text


Python (async):

from kreuzberg import extract_file

result = await extract_file("presentation.pptx")
print(result.content)
print(result.metadata.title, result.metadata.author)


Подходит для:
🟢автоматизации документооборота;
🟢систем анализа контрактов и счетов;
🟢интеграции в web-приложения.

♎️ GitHub/Инструкция

#python #soft #code #github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥3012



tgoop.com/python2day/7040
Create:
Last Update:

🔥 Kreuzberg — умный фреймворк для работы с документами на Python.

Надоело вручную вытаскивать текст и данные из PDF, Word или сканов? Теперь это можно делать в один вызов API.

Что умеет:
📄 Извлечение текста с сохранением структуры и форматирования.
🧾 Метаданные: автор, язык, дата создания, ключевые слова.
🌍 Поддержка 18 форматов (PDF, Office, HTML, изображения и др.).
👁 OCR (Tesseract, EasyOCR, PaddleOCR) — распознавание текста со сканов и фото.
📊 Извлечение таблиц с точностью до ячейки.
🤖 Автоматическая классификация документов (контракты, счета, отчёты и т.п.).

Технические фишки:

💬 Производительность — до 30+ документов/сек;
💬 Малый вес (71MB) и низкое потребление памяти;
💬 Плагинная архитектура — можно писать свои экстеншены;
💬 Полная поддержка синхронного и асинхронного API.

👨‍💻 Примеры использования:

CLI:

# Извлечь текст
uvx kreuzberg extract document.pdf > output.txt

# OCR + таблицы
uvx --from "kreuzberg[all]" kreuzberg extract invoice.pdf --ocr-backend tesseract --output-format text


Python (async):

from kreuzberg import extract_file

result = await extract_file("presentation.pptx")
print(result.content)
print(result.metadata.title, result.metadata.author)


Подходит для:
🟢автоматизации документооборота;
🟢систем анализа контрактов и счетов;
🟢интеграции в web-приложения.

♎️ GitHub/Инструкция

#python #soft #code #github

BY [PYTHON:TODAY]




Share with your friend now:
tgoop.com/python2day/7040

View MORE
Open in Telegram


Telegram News

Date: |

In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. Read now
from us


Telegram [PYTHON:TODAY]
FROM American