DATA_MATH Telegram 860
🔢 Качество математических данных — ключ к развитию reasoning-моделей.

Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.

⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.
👍65🔥2



tgoop.com/data_math/860
Create:
Last Update:

🔢 Качество математических данных — ключ к развитию reasoning-моделей.

Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.

⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.

BY Математика Дата саентиста







Share with your friend now:
tgoop.com/data_math/860

View MORE
Open in Telegram


Telegram News

Date: |

Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. How to Create a Private or Public Channel on Telegram? As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces.
from us


Telegram Математика Дата саентиста
FROM American