tgoop.com/opendatascience/2656
Create:
Last Update:
Last Update:
С помощью технологии DeepSeek OCR мы извлекли все наборы данных из таблиц и диаграмм, содержащихся в более чем 500 000 научных работ по искусственному интеллекту на портале arXiv. Затраты на реализацию проекта составили 1000 долларов США.
Теперь вы можете отслеживать наиболее актуальные бенчмарки и находить наборы данных, о существовании которых ранее не было известно.
Для сравнения: выполнение аналогичной задачи с использованием технологии Mistral OCR обошлось бы в 7500 долларов США
На следующей неделе мы опубликуем набор данных статей arXiv в формате markdown, обработанных с помощью DeepSeek OCR.
Создан, чтобы предоставить преподавателям LLM высококачественный предварительный учебный ресурс, который не нагружает серверы arXiv ботами для сбора данных.
Посмотрите наши наборы данных и бенчмарки, проиндексированные DeepSeek OCR:
https://www.alphaxiv.org/?datasets=true
— делятся впечатлениями alphaXiv.
Особенность DeepSeek OCR в том, что технология не читает текст традиционным способом, а как бы фотографирует его, превращая в компактное изображение, затем анализирует изображение. Такой подход позволяет ИИ-решениям обрабатывать огромные объемы документов намного эффективнее. Главное новшество это способность сжимать текстовую информацию в 10, а иногда и в 20 раз. Модель преобразует тысячи текстовых токенов в несколько сотен визуальных токенов. Таким образом, снижается вычислительная нагрузка при обработке длинных документов, позволяя ИИ анализировать контекст быстрее и дешевле.
DeepSeek OCR умеет не просто распознавать текст, но и проводить глубокий синтаксический анализ, а также извлекать структурированную информацию из сложных элементов, таких как:
https://github.com/deepseek-ai/DeepSeek-OCR
