📊 LLaVA-CoT: новый уровень визуального мышления для ИИ

📊

LLaVA-CoT: новый уровень визуального мышления для ИИ

Это мощный визуальный языковой модель (VLM), способный логически рассуждать шаг за шагом на основе изображений.

⭐

Почему это круто?

Превзошла Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B на 6 сложнейших мультимодальных задачах.
Описывает проблему, интерпретирует изображение, логически рассуждает и выдаёт корректный ответ. Всё это — в одном процессе.

🌻

Реальный пример:

Представьте задачу: «Сколько объектов останется, если убрать все маленькие блестящие шары и все фиолетовые предметы?»
LLaVA-CoT не просто угадывает, она:
1️⃣ Сначала анализирует изображение и описывает, что на нём видно.
2️⃣ Делит процесс на этапы: считает объекты, отнимает нужные и в конце выдает результат.
3️⃣ Объясняет, как пришла к своему выводу.

📎 Ссылка на гитхаб

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1🔥1

www.tgoop.com/proglib_academy/2338

483 viewsJan 10 at 07:06

tgoop.com/proglib_academy/2338

Create: 2025-01-10
Last Update: 2025-07-25 16:44:20

📊 LLaVA-CoT: новый уровень визуального мышления для ИИ

Это мощный визуальный языковой модель (VLM), способный логически рассуждать шаг за шагом на основе изображений.

⭐ Почему это круто?

Превзошла Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B на 6 сложнейших мультимодальных задачах.
Описывает проблему, интерпретирует изображение, логически рассуждает и выдаёт корректный ответ. Всё это — в одном процессе.

🌻 Реальный пример:

Представьте задачу: «Сколько объектов останется, если убрать все маленькие блестящие шары и все фиолетовые предметы?»
LLaVA-CoT не просто угадывает, она:
1️⃣ Сначала анализирует изображение и описывает, что на нём видно.
2️⃣ Делит процесс на этапы: считает объекты, отнимает нужные и в конце выдает результат.
3️⃣ Объясняет, как пришла к своему выводу.

📎 Ссылка на гитхаб

Telegram News

📊 LLaVA-CoT: новый уровень визуального мышления для ИИ