DATA_MATH Telegram 774
Forwarded from Machinelearning
🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1



tgoop.com/data_math/774
Create:
Last Update:

🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax

BY Математика Дата саентиста






Share with your friend now:
tgoop.com/data_math/774

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. bank east asia october 20 kowloon Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators.
from us


Telegram Математика Дата саентиста
FROM American