Еще Qwen выкатил, возможно, лучший open-source анализатор изображений
Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!
Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост
А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества
На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные
Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output
Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу
С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct
P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!
Будем тестить дальше! 🔥
Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!
Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост
А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества
На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные
Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output
Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу
С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct
P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!
Будем тестить дальше! 🔥
tgoop.com/neuraldeep/1293
Create:
Last Update:
Last Update:
Еще Qwen выкатил, возможно, лучший open-source анализатор изображений
Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!
Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост
А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества
На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные
Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output
Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу
С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct
P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!
Будем тестить дальше! 🔥
Qwen представил Qwen2.5-VL - новую мультимодальную модель на замен Qwen2-VL
И самое главное - она open-source!
Что показывают тесты что меня интересует по метрикам
- OCRBench-V2 (en/zh): 61.5/63.7 - лучший результат среди всех моделей
- CC-OCR: 79.8% - опережает даже проприетарные решения
- DocVQA: 96.4% - топовый результат для работы с документами
- MMVet_turbo: 76.19% - существенное улучшение в понимании изображений
- MathVision_FULL: рост с 25.9% до 38.1% - в математических задачах рельно заметный рост
А теперь к тестам на эту неделю запланировал тесты и что мы будем тестировать (неструктурированные документы которые имеют по 20 000 форм)
- Таможенные декларации
- СЭС-сертификаты
- Сертификаты пожарной безопасности
- Паспорта качества
На что смотрим при тестах:
1. Извлечение данных:
- Производитель
- Номера документов
- Даты
- Организации
- Описания
2. Особое внимание:
- Смешанные символы (кириллица + латиница)
- Форматированный текст
- Структурированные данные
Как запускать?
- 7B версия -> RTX 4090 (максимальная параллельность: 3.82x для 20000 токенов)
- 72B версия -> H100 с FP8 квантизацией (параллельность: 2.38x для 6000 токенов)
- VLLM для оптимизации
- xgrammar для Structured Output
Скорость работы прошлой модели
- 7B: 4 секунды на страницу
- 72B: 10 секунд на страницу
С чем будем сравнивать
- GPT-4o
- Claude 3.5 Sonnet
- Gemini Pro
- Qwen2-VL-72B-Instruct
P.S. Похоже, что open-source решения начинают всерьез конкурировать с проприетарными платформами А учитывая возможность локального запуска - это может быть game changer для компаний с высокими требованиями к безопасности!
Будем тестить дальше! 🔥
BY Neural Deep


Share with your friend now:
tgoop.com/neuraldeep/1293