MACHINELEARNING_INTERVIEW Telegram 2196
⚡️ Kyvo — новая универсальная модель от Caltech

Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ.

🔍 Что делает Kyvo
- Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение.
- Объединяет текст, изображения и 3D в одно общее представление.
- Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции.
- Использует специальные кодировки для более точного восстановления форм объектов.

🧪 На чём проверяли
- Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes.
- Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы.

Чем интересна:
- Универсальность: одна модель - много задач и форматов данных.
- Гибкость: одинаково хорошо работает и в генерации, и в понимании.
- Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D.

🔗 Ссылки
- Статья на arXiv: https://arxiv.org/abs/2506.08002
- Проект: https://glab-caltech.github.io/kyvo/
- GitHub: https://github.com/glab-caltech/kyvo
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍8



tgoop.com/machinelearning_interview/2196
Create:
Last Update:

⚡️ Kyvo — новая универсальная модель от Caltech

Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ.

🔍 Что делает Kyvo
- Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение.
- Объединяет текст, изображения и 3D в одно общее представление.
- Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции.
- Использует специальные кодировки для более точного восстановления форм объектов.

🧪 На чём проверяли
- Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes.
- Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы.

Чем интересна:
- Универсальность: одна модель - много задач и форматов данных.
- Гибкость: одинаково хорошо работает и в генерации, и в понимании.
- Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D.

🔗 Ссылки
- Статья на arXiv: https://arxiv.org/abs/2506.08002
- Проект: https://glab-caltech.github.io/kyvo/
- GitHub: https://github.com/glab-caltech/kyvo

BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/2196

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. Informative
from us


Telegram Machine learning Interview
FROM American