DATA_MATH Telegram 858
🔢 Качество математических данных — ключ к развитию reasoning-моделей.

Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.

⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.
👍65🔥2



tgoop.com/data_math/858
Create:
Last Update:

🔢 Качество математических данных — ключ к развитию reasoning-моделей.

Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.

⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.

BY Математика Дата саентиста







Share with your friend now:
tgoop.com/data_math/858

View MORE
Open in Telegram


Telegram News

Date: |

Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. SUCK Channel Telegram Image: Telegram. Click “Save” ; Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram Математика Дата саентиста
FROM American