tgoop.com/robotics_scince/775
Last Update:
Мы представляем автоматический конвейер генерации синтетических данных, который настраивает VLM на инструкции и потребности роботов. Используя конвейер, мы обучаем ROBOPOINT , VLM, который предсказывает возможности ключевых точек изображения с учетом языковых инструкций. По сравнению с альтернативными подходами наш метод не требует сбора данных в реальном мире или демонстрации человеком, что делает его гораздо более масштабируемым для различных сред и точек обзора. Кроме того, ROBOPOINT — это общая модель, которая позволяет использовать несколько приложений, таких как навигация робота, манипуляция и помощь дополненной реальности (AR). Наши эксперименты показывают, что ROBOPOINT превосходит современные VLM (GPT-4o) и методы визуальных подсказок (PIVOT) на 21,8% по точности прогнозирования пространственной доступности и на 30,5% по показателю успешности последующих задач.
https://robo-point.github.io/
https://arxiv.org/abs/2406.18915
BY Робототехника автономные системы и автоматизация
Share with your friend now:
tgoop.com/robotics_scince/775