Warning: file_put_contents(aCache/aDaily/post/data_math/-424-425-426-427-424-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Математика Дата саентиста@data_math P.427
DATA_MATH Telegram 427
Forwarded from Machinelearning
⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.

Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:

🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.

Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:

🟠Qwen2-VL-72B;
🟢Qwen2-VL-7B-Instruct;
🟢Qwen2-VL-2B-Instruct,

и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.

Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:

🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.

🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.

⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.

Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.

▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥Github [ Stars: 59 | Issues: 3 | Forks: 2]


@ai_machinelearning_big_data

#AI #Qwen #ML #GPTQ #VLM #AWQ
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥2



tgoop.com/data_math/427
Create:
Last Update:

⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.

Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:

🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.

Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:

🟠Qwen2-VL-72B;
🟢Qwen2-VL-7B-Instruct;
🟢Qwen2-VL-2B-Instruct,

и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.

Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:

🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.

🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.

⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.

Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.

▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥Github [ Stars: 59 | Issues: 3 | Forks: 2]


@ai_machinelearning_big_data

#AI #Qwen #ML #GPTQ #VLM #AWQ

BY Математика Дата саентиста







Share with your friend now:
tgoop.com/data_math/427

View MORE
Open in Telegram


Telegram News

Date: |

The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Step-by-step tutorial on desktop: In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013.
from us


Telegram Математика Дата саентиста
FROM American