tgoop.com/scriptRunAI_media/8807
Last Update:
Meta FAIR представила 5 новых проектов для создания "человеко-подобного" ИИ
Исследовательская команда FAIR от Meta сделала крупный шаг к продвинутому ИИ — представлено сразу 5 новых разработок, направленных на восприятие, понимание и взаимодействие ИИ с окружающим миром.
Вот кратко о каждом из них:
Perception Encoder
Новый визуальный энкодер, способный точно распознавать сложные объекты на изображениях и видео — от ската, зарытого в песке, до птицы на заднем плане. Также усиливает возможности LLM в задачах, где важна визуальная логика: подписи, VQA, пространственные отношения и т.д.
Perception Language Model (PLM)
Открытая мульти-модальная модель (1B, 3B, 8B параметров) для точного визуального понимания. Meta также выпустила крупнейший датасет и бенчмарк для видео: PLM-VideoBench, включая 2.5M новых аннотированных примеров.
Meta Locate 3D
Модель, которая позволяет роботам находить объекты в 3D-пространстве по описанию на естественном языке. Например: «ваза у телевизора». Работает напрямую с 3D-точками от RGB-D сенсоров. Добавлен новый датасет с 130K аннотациями — в 2 раза больше, чем раньше было в открытом доступе.
Dynamic Byte Latent Transformer
Модель, работающая на уровне байтов, а не токенов. Устойчивее к ошибкам, нестандартным словам и «вредным» входам. Показывает рост точности до +55% на отдельных задачах по сравнению с традиционными LLM. Meta открыла веса и код.
Collaborative Reasoner
Фреймворк и модель для ИИ, умеющего сотрудничать с людьми и другими ИИ. Разговоры с множеством итераций, аргументацией, компромиссами и даже самотренировкой на синтетических диалогах. На задачах из математики, науки и логики показан рост эффективности до +29.4%.
💡 Все проекты доступны в открытом доступе: Meta снова делает ставку на фундаментальные ИИ-разработки, стремясь построить системы, ближе к человеческому восприятию и мышлению.
BY scriptRun AI медиа

Share with your friend now:
tgoop.com/scriptRunAI_media/8807
