74 - Telegram Web

Forwarded from ilovedocs

Павел_Мищенко_Статья_От_юридического_ремесла_к_юридической_нейрофабрике.pdf

👍8🔥4

1.24K viewsМихаил Тевс, 12:46

Исправление текста после плохого распознавания PDF

Anna Kopp обратилась к участникам чата с просьбой помочь исправить текст длинного договора, который был преобразован в файл .doc из .pdf. Часто при таком распознавании файл имеет много неясных или неверных слов, смещенные границы и прочие недостатки.

Участник сообщества Tigran (@RunBabyRun) предложил сохранить файл в обычный .txt. Это необходимо, чтобы убрать вовсе всю сбившуюся разметку и оставить только текст, с которым проще работать. Подготовленный .txt загрузить в нейросеть и задать следующий промпт:

Основной промт:
Ты — опытный юрист-редактор. Проанализируй предоставленный текст договора. Текст был получен через OCR-распознавание PDF-файла и содержит множество ошибок: опечатки, неверные слова, отсутствующие разрывы строк и абзацев.

Выполни, пожалуйста, комплексное исправление текста:

1. Восстанови структуру: Раздели текст на логические абзацы в местах, где начинается новая мысль или тема. Используй для разделения пустую строку.
2. Исправь ошибки распознавания (OCR): Найди и исправь очевидные опечатки, неверные слова (например, "государство" -> "государство", "1." -> "ст. 1."). Действуй внимательно, но только если уверен в исправлении.
3. Сохрани содержание: Не редактируй юридическую суть документа, не меняй термины и не добавляй новый текст. Твоя задача — очистить и вернуть исходный текст договора в читаемый вид.

Верни мне полностью исправленный и отформатированный текст договора. Не пиши никаких пояснений до и после него.

Tigran отметил, что если нейросеть не справится с целым файлом, то его можно разбить на части и обработать каждую по отдельности, а затем объединить.

Но в случае Анны нейросеть справилась сразу: "DeepSeek преобразовал текст без единой ошибки, всё структурировал, распознал слова, даже полные абракадабры".

--------------------------------
Сообщество юристов, которые покоряют нейросети
Канал | Чат

🔥28✍21❤10🙏1

2.09K viewsМихаил Тевс, 05:30