Warning: file_put_contents(aCache/aDaily/post/neural/-10140-10141-10142-10140-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Neural Networks | Нейронные сети@neural P.10142
NEURAL Telegram 10142
Forwarded from Machinelearning
🌟 MiniCPM-V 4.5: компактная модель, которая бьет гигантов в мультимодальном ИИ.

Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.

OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.

Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.


🟡Киллер-фича модели - эффективная работа с видео.

Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.

Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.

Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.

Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.

При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.

🟡С инференсом тоже нет проблем.

Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.

▶️ Чтобы было проще разобраться во всех вариантах запуска, разработчики заботливо подготовили подробный cookbook.


📌Лицензирование: MiniCPM Model License.


🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/neural/10142
Create:
Last Update:

🌟 MiniCPM-V 4.5: компактная модель, которая бьет гигантов в мультимодальном ИИ.

Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.

OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.

Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.


🟡Киллер-фича модели - эффективная работа с видео.

Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.

Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.

Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.

Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.

При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.

🟡С инференсом тоже нет проблем.

Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.

▶️ Чтобы было проще разобраться во всех вариантах запуска, разработчики заботливо подготовили подробный cookbook.


📌Лицензирование: MiniCPM Model License.


🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #MiniCPM #OpenBMB

BY Neural Networks | Нейронные сети





Share with your friend now:
tgoop.com/neural/10142

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Invite up to 200 users from your contacts to join your channel
from us


Telegram Neural Networks | Нейронные сети
FROM American