NEURALDEEP Telegram 1293
Еще Qwen выкатил, возможно, лучший open-source анализатор изображений


Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!

Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост

А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества

На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные

Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output

Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу

С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct

P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!

Будем тестить дальше! 🔥



tgoop.com/neuraldeep/1293
Create:
Last Update:

Еще Qwen выкатил, возможно, лучший open-source анализатор изображений


Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!

Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост

А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества

На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные

Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output

Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу

С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct

P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!

Будем тестить дальше! 🔥

BY Neural Deep





Share with your friend now:
tgoop.com/neuraldeep/1293

View MORE
Open in Telegram


Telegram News

Date: |

Some Telegram Channels content management tips As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Each account can create up to 10 public channels To edit your name or bio, click the Menu icon and select “Manage Channel.” Healing through screaming therapy
from us


Telegram Neural Deep
FROM American