Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Chi et al., June 2023
arxiv.org/abs/2303.04137
Код: тык
Данные: тык
Внезапно узнал что диффузия сейчас это лидирующий подход к learning from demonstrations в робототехнике. Диффузионная модель на основе трансформера принимает в себя стейт робота (камеры + датчики) и тренируется предсказывать следующее действие. Дальше несколько хаков касательно того насколько далеко такой моделью можно планировать и как сделать чтобы она бежала со скоростью 10Hz для того чтобы контролировать робота.
По сравнинию с другими способами learning from demonstration, на практике диффузия гораздо лучше моделирует случаи когда есть несколько валидных траекторий. Пример на картинке.
Больше видосов как роботы делают разные штуки (включая нанесение соуса на пиццу) по этой ссылке: тык
Моя первая мысль: интересно чем именно диффузия качественно отличается от того чтобы просто предсказывать следующее действие в один шаг. Или даже предсказывать последовательность действий а-ля языковое моделирование. Точно кто-то уже должен был это пробовать, но интересно как это работает at scale.
Chi et al., June 2023
arxiv.org/abs/2303.04137
Код: тык
Данные: тык
Внезапно узнал что диффузия сейчас это лидирующий подход к learning from demonstrations в робототехнике. Диффузионная модель на основе трансформера принимает в себя стейт робота (камеры + датчики) и тренируется предсказывать следующее действие. Дальше несколько хаков касательно того насколько далеко такой моделью можно планировать и как сделать чтобы она бежала со скоростью 10Hz для того чтобы контролировать робота.
По сравнинию с другими способами learning from demonstration, на практике диффузия гораздо лучше моделирует случаи когда есть несколько валидных траекторий. Пример на картинке.
Больше видосов как роботы делают разные штуки (включая нанесение соуса на пиццу) по этой ссылке: тык
Моя первая мысль: интересно чем именно диффузия качественно отличается от того чтобы просто предсказывать следующее действие в один шаг. Или даже предсказывать последовательность действий а-ля языковое моделирование. Точно кто-то уже должен был это пробовать, но интересно как это работает at scale.
👍27🔥15❤6😁2
tgoop.com/dlinnlp/1736
Create:
Last Update:
Last Update:
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Chi et al., June 2023
arxiv.org/abs/2303.04137
Код: тык
Данные: тык
Внезапно узнал что диффузия сейчас это лидирующий подход к learning from demonstrations в робототехнике. Диффузионная модель на основе трансформера принимает в себя стейт робота (камеры + датчики) и тренируется предсказывать следующее действие. Дальше несколько хаков касательно того насколько далеко такой моделью можно планировать и как сделать чтобы она бежала со скоростью 10Hz для того чтобы контролировать робота.
По сравнинию с другими способами learning from demonstration, на практике диффузия гораздо лучше моделирует случаи когда есть несколько валидных траекторий. Пример на картинке.
Больше видосов как роботы делают разные штуки (включая нанесение соуса на пиццу) по этой ссылке: тык
Моя первая мысль: интересно чем именно диффузия качественно отличается от того чтобы просто предсказывать следующее действие в один шаг. Или даже предсказывать последовательность действий а-ля языковое моделирование. Точно кто-то уже должен был это пробовать, но интересно как это работает at scale.
Chi et al., June 2023
arxiv.org/abs/2303.04137
Код: тык
Данные: тык
Внезапно узнал что диффузия сейчас это лидирующий подход к learning from demonstrations в робототехнике. Диффузионная модель на основе трансформера принимает в себя стейт робота (камеры + датчики) и тренируется предсказывать следующее действие. Дальше несколько хаков касательно того насколько далеко такой моделью можно планировать и как сделать чтобы она бежала со скоростью 10Hz для того чтобы контролировать робота.
По сравнинию с другими способами learning from demonstration, на практике диффузия гораздо лучше моделирует случаи когда есть несколько валидных траекторий. Пример на картинке.
Больше видосов как роботы делают разные штуки (включая нанесение соуса на пиццу) по этой ссылке: тык
Моя первая мысль: интересно чем именно диффузия качественно отличается от того чтобы просто предсказывать следующее действие в один шаг. Или даже предсказывать последовательность действий а-ля языковое моделирование. Точно кто-то уже должен был это пробовать, но интересно как это работает at scale.
BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1736