tgoop.com/proglib_academy/2338
Last Update:
Это мощный визуальный языковой модель (VLM), способный логически рассуждать шаг за шагом на основе изображений.
Превзошла Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B на 6 сложнейших мультимодальных задачах.
Описывает проблему, интерпретирует изображение, логически рассуждает и выдаёт корректный ответ. Всё это — в одном процессе.
Представьте задачу: «Сколько объектов останется, если убрать все маленькие блестящие шары и все фиолетовые предметы?»
LLaVA-CoT не просто угадывает, она: