Warning: file_put_contents(aCache/aDaily/post/ai_machinelearning_big_data/-7532-7533-7534-7532-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Machinelearning@ai_machinelearning_big_data P.7532
AI_MACHINELEARNING_BIG_DATA Telegram 7532
🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.

Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.

Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.

Тестовую модель обучали в 3 стадии:

🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.

🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.

🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.

Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #CoT #UnifiedReward #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5824🔥16👏7



tgoop.com/ai_machinelearning_big_data/7532
Create:
Last Update:

🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.

Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.

Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.

Тестовую модель обучали в 3 стадии:

🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.

🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.

🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.

Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #CoT #UnifiedReward #Tencent

BY Machinelearning






Share with your friend now:
tgoop.com/ai_machinelearning_big_data/7532

View MORE
Open in Telegram


Telegram News

Date: |

Activate up to 20 bots 5Telegram Channel avatar size/dimensions During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Telegram Channels requirements & features On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information.
from us


Telegram Machinelearning
FROM American