DATA_MATH Telegram 859
🔢 Качество математических данных — ключ к развитию reasoning-моделей.

Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.

⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.
👍65🔥2



tgoop.com/data_math/859
Create:
Last Update:

🔢 Качество математических данных — ключ к развитию reasoning-моделей.

Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

👉 Даже GPT-5 при распознавании путает F с τ (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B → 10B только по качеству повысила результативность.

⚠️ Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

💡 Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.
Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.
Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.
Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

📌 Репозитории:
- Marker → https://github.com/datalab-to/marker
- Surya → https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.

BY Математика Дата саентиста







Share with your friend now:
tgoop.com/data_math/859

View MORE
Open in Telegram


Telegram News

Date: |

According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. ‘Ban’ on Telegram
from us


Telegram Математика Дата саентиста
FROM American