NEURALDEEP Telegram 1294
Еще Qwen выкатил, возможно, лучший open-source анализатор изображений


Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!

Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост

А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества

На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные

Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output

Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу

С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct

P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!

Будем тестить дальше! 🔥



tgoop.com/neuraldeep/1294
Create:
Last Update:

Еще Qwen выкатил, возможно, лучший open-source анализатор изображений


Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!

Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост

А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества

На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные

Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output

Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу

С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct

P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!

Будем тестить дальше! 🔥

BY Neural Deep





Share with your friend now:
tgoop.com/neuraldeep/1294

View MORE
Open in Telegram


Telegram News

Date: |

Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. 5Telegram Channel avatar size/dimensions Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021.
from us


Telegram Neural Deep
FROM American