BIGDATA_1 Telegram 1012
DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.


DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.


На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1
👍3



tgoop.com/bigdata_1/1012
Create:
Last Update:

DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.


DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.


На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1

BY BigData






Share with your friend now:
tgoop.com/bigdata_1/1012

View MORE
Open in Telegram


Telegram News

Date: |

Write your hashtags in the language of your target audience. How to Create a Private or Public Channel on Telegram? Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Unlimited number of subscribers per channel
from us


Telegram BigData
FROM American