Warning: file_put_contents(aCache/aDaily/post/data_math/-798-799-800-798-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Математика Дата саентиста@data_math P.799
DATA_MATH Telegram 799
Forwarded from Machinelearning
🌟 HumanOmniV2: модель, которая понимает контекст видео.

Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.

Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> .

Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:

🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM;

🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их.

Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.

Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).

Тестовая модель обошла открытые аналоги на 3 бенчмарках:

🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6);
🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni);
🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni).


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #HumanOmniV2 #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96



tgoop.com/data_math/799
Create:
Last Update:

🌟 HumanOmniV2: модель, которая понимает контекст видео.

Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.

Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> .

Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:

🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM;

🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их.

Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.

Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).

Тестовая модель обошла открытые аналоги на 3 бенчмарках:

🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6);
🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni);
🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni).


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #HumanOmniV2 #Alibaba

BY Математика Дата саентиста






Share with your friend now:
tgoop.com/data_math/799

View MORE
Open in Telegram


Telegram News

Date: |

The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. The Standard Channel Informative Invite up to 200 users from your contacts to join your channel
from us


Telegram Математика Дата саентиста
FROM American