Notice: file_put_contents(): Write of 10159 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 12288 of 22447 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
AI для Всех@nn_for_science P.2273
NN_FOR_SCIENCE Telegram 2273
EMMA — универсальный мультимодальный автопилот на базе языковой модели

Waymo создали систему, которая использует всю мощь LLM, чтобы “думать” о ситуации на дороге как человек. Это EMMA - мультимодальная модель автономного вождения на основе Gemini от Google.

Главное новшество EMMA - объединение всех задач автопилота (планирование траектории, 3D-объектное распознавание и понимание дорожной обстановки) в единую текстовую форму, чтобы использовать большую языковую модель и эффективно решать задачи, связанные с восприятием мира и планированием действий.

По технической части расклад такой:

1. End-to-end планирование траектории.
Сквозной подход EMMA имитирует поведение человека за рулем с особым вниманием на два критических аспекта: использование навигационных систем (например, Google Maps) для планирования маршрута, и использование данных о прошлых событиях для плавного, последовательного вождения.

EMMA принимает на вход непосредственно данные от видеокамер (пока без LiDAR и радаров), высокоуровневые командные инструкции от навигационной системы (типа “следуйте прямо”, “поверните направо”), метки автомобиля в формате “вида сверху” (Bird’s Eye View, BEV), и генерит будущие траектории в виде набора точек маршрута в тех же форматах.
И все это - без необходимости в ручной разметке данных .

2. Иерархическое обоснование решений (Chain-of-Thought).
Та самая техника CoT и тут улучшает решения модели, разделяя их на несколько уровней:
• R1: Описание сцены (освещение, погода, дорожные условия);
• R2: Критические объекты (пешеходы, автомобили с указанием их 3D координат);
• R3: Описание поведения объектов (например, «пешеход на обочине, возможно, собирается перейти дорогу»);
• R4: Общие решения по вождению (например, «следует сохранять низкую скорость») .
Модель предсказывает все четыре компонента обоснования вождения, перед тем как выдать будущие точки маршрута

3. Совместное обучение нескольких задач (Co-Training).
Создатели EMMA фокусиравались на трех основных задачах: сквозном планировании, обнаружении 3D-объектов и оценке дорожного графа (это дорожные объекты и связи меджу ними).
Совместное обучение по всем трем задачам дает значительные улучшения (до 5,5% по сравнению с однозадачными моделями). Любопытно, что при совместном обучении двух задач определенные комбинации более эффективны, чем другие. Например, и эффективность обнаружения, и оценки дорожного графа улучшается больше всего при совместном обучении с вождением.
Мне это напоминает человеческе способности - когда вы видите велосипедиста и краем уха слышите приблидающиеся к вам звуки, ваш мозг быстро всё связывает и понимает: кто-то сейчас промчится перед вами. Вот и модели взаимная информации идет на пользу: оценка дорожной обстановки и распознавание объектов улучшают планирование траектории, а это, в свою очередь, улучшает общее поведение модели на дороге.

Есть и минусы. Хотя EMMA демонстрирует многообещающие результаты и выполняет сразу несколько задач в одном языковом пространстве, она все еще находится на ранней стадии с ограничениями по развертыванию в прод. Она требует доработки для работы с более длительными видеопоследовательностями (сейчас работает всего на 4х кадрах) и для обработки данных от LiDAR-ов, а еще она вычислительно кусаче-дорогая. Но сам переход в мультимодальность для автономного вождения выглядит очень разумно.

Надо бы включить в co-training задачи инференса бесценных историй из жизни, анекдотов и отменных плейлистов с бортов такси. Стопроц это даст еще больший прирост производительности.

📖Статья Waymo
🔥10👍74



tgoop.com/nn_for_science/2273
Create:
Last Update:

EMMA — универсальный мультимодальный автопилот на базе языковой модели

Waymo создали систему, которая использует всю мощь LLM, чтобы “думать” о ситуации на дороге как человек. Это EMMA - мультимодальная модель автономного вождения на основе Gemini от Google.

Главное новшество EMMA - объединение всех задач автопилота (планирование траектории, 3D-объектное распознавание и понимание дорожной обстановки) в единую текстовую форму, чтобы использовать большую языковую модель и эффективно решать задачи, связанные с восприятием мира и планированием действий.

По технической части расклад такой:

1. End-to-end планирование траектории.
Сквозной подход EMMA имитирует поведение человека за рулем с особым вниманием на два критических аспекта: использование навигационных систем (например, Google Maps) для планирования маршрута, и использование данных о прошлых событиях для плавного, последовательного вождения.

EMMA принимает на вход непосредственно данные от видеокамер (пока без LiDAR и радаров), высокоуровневые командные инструкции от навигационной системы (типа “следуйте прямо”, “поверните направо”), метки автомобиля в формате “вида сверху” (Bird’s Eye View, BEV), и генерит будущие траектории в виде набора точек маршрута в тех же форматах.
И все это - без необходимости в ручной разметке данных .

2. Иерархическое обоснование решений (Chain-of-Thought).
Та самая техника CoT и тут улучшает решения модели, разделяя их на несколько уровней:
• R1: Описание сцены (освещение, погода, дорожные условия);
• R2: Критические объекты (пешеходы, автомобили с указанием их 3D координат);
• R3: Описание поведения объектов (например, «пешеход на обочине, возможно, собирается перейти дорогу»);
• R4: Общие решения по вождению (например, «следует сохранять низкую скорость») .
Модель предсказывает все четыре компонента обоснования вождения, перед тем как выдать будущие точки маршрута

3. Совместное обучение нескольких задач (Co-Training).
Создатели EMMA фокусиравались на трех основных задачах: сквозном планировании, обнаружении 3D-объектов и оценке дорожного графа (это дорожные объекты и связи меджу ними).
Совместное обучение по всем трем задачам дает значительные улучшения (до 5,5% по сравнению с однозадачными моделями). Любопытно, что при совместном обучении двух задач определенные комбинации более эффективны, чем другие. Например, и эффективность обнаружения, и оценки дорожного графа улучшается больше всего при совместном обучении с вождением.
Мне это напоминает человеческе способности - когда вы видите велосипедиста и краем уха слышите приблидающиеся к вам звуки, ваш мозг быстро всё связывает и понимает: кто-то сейчас промчится перед вами. Вот и модели взаимная информации идет на пользу: оценка дорожной обстановки и распознавание объектов улучшают планирование траектории, а это, в свою очередь, улучшает общее поведение модели на дороге.

Есть и минусы. Хотя EMMA демонстрирует многообещающие результаты и выполняет сразу несколько задач в одном языковом пространстве, она все еще находится на ранней стадии с ограничениями по развертыванию в прод. Она требует доработки для работы с более длительными видеопоследовательностями (сейчас работает всего на 4х кадрах) и для обработки данных от LiDAR-ов, а еще она вычислительно кусаче-дорогая. Но сам переход в мультимодальность для автономного вождения выглядит очень разумно.

Надо бы включить в co-training задачи инференса бесценных историй из жизни, анекдотов и отменных плейлистов с бортов такси. Стопроц это даст еще больший прирост производительности.

📖Статья Waymo

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2273

View MORE
Open in Telegram


Telegram News

Date: |

As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. How to create a business channel on Telegram? (Tutorial) The Standard Channel
from us


Telegram AI для Всех
FROM American