tgoop.com/machinelearning_interview/2196
Last Update:
Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ.
🔍 Что делает Kyvo
- Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение.
- Объединяет текст, изображения и 3D в одно общее представление.
- Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции.
- Использует специальные кодировки для более точного восстановления форм объектов.
🧪 На чём проверяли
- Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes.
- Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы.
✅ Чем интересна:
- Универсальность: одна модель - много задач и форматов данных.
- Гибкость: одинаково хорошо работает и в генерации, и в понимании.
- Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D.
🔗 Ссылки
- Статья на arXiv: https://arxiv.org/abs/2506.08002
- Проект: https://glab-caltech.github.io/kyvo/
- GitHub: https://github.com/glab-caltech/kyvo