BIGDATA_1 Telegram 1012
DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.


DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.


На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1
👍3



tgoop.com/bigdata_1/1012
Create:
Last Update:

DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.


DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.


На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1

BY BigData






Share with your friend now:
tgoop.com/bigdata_1/1012

View MORE
Open in Telegram


Telegram News

Date: |

Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Channel login must contain 5-32 characters Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first.
from us


Telegram BigData
FROM American