QUANT_PRUNE_DISTILL Telegram 193
Sora (Video generation models as world simulators)

Полагаю, все уже успели полюбоваться новым детищем от OpenAI под названием Sora. Классные разборы уже появились у светочей и рупоров отечетсвенного AI (пост Сиолошной, пост на Любовь, Смерть, Трансформеры), как и веселые мемчики. Со своей стороны лишь накину пару мыслей и соображений после прочтения отчетов и залипания в видосики.

В отчете ожидаемо (given the competitive landscape and the safety implications бла-бла-бла) не прозвучали какие-либо детали о сборе и фильтрации датасета, архитектуре, пайплайне обучения. На основе отчета можно сделать следующиее выводы:

1️⃣ Архитектура модели - некий здоровенный трансформер, работающий на пространственно-временных патчах.
2️⃣ Модель - латентная. Есть энкодер, превращающий видео с большим пространственным и временным разрешением в некое компактное латентное представление, в котором и происходит диффузионный процесс. И декодер, превращающий латенты обратно в видео.
3️⃣ Модель можно обуславливать на текст, текст + изображение, и использовать для продолжения коротких клипов. Кроме того, можно редактировать видео с помощью промпта и интерполировать два ролика осмысленным образом.
4️⃣ В процессе обучения модели, по всей видимости, на вход подавались и изображения, и картинки. Картинка эквивалентна видео из одного кадра.
5️⃣ Модель обучалась на исходных, необрезанных картинках. Благодаря этому она не генерирует обрезанный контект и способна работать в любом разрешении. Интересно, как они батчевали кадры разного разрешения. Возможно, encoder/decoder способен приводить все к одному разрешению, обуславливаясь на разрешение входа. А может, модель настолько большая, что батч больше одного все равно не лезет в сие чудище.
6️⃣ Модель обладает пространственно-временной консистентностью. Закрытие одного обьекта другим (occlusion), не приводит к характерным артефактам.
7️⃣ Генерировать можно ролики и изображения с разрешением до 2k.
8️⃣ Как и в DALLE-3, большую роль играют синтетические описания, сгененированные специально обученной для этого моделью.

Спекуляции и догадки
1⃣️️ По всей видимости. модель под капотом и обьем данных/вычислений, потраченных на обучения модели, реально колосалльны. Скорее всего сама модель значительно больше, чем SDXL, Emu, и иные модели, о которых хоть что-то известно.
2⃣️️ Полагаю, что в обучении было задействовано много синтетики зарендеренной Unreal Engine 5, или чем-то подобным. Многие ролики напоминают генерации движка 3D графики. Таким образом можно задавать пространственно-временную информацию куда более явно, чем weak supervision с огромного числа видеороликов и клипов.
🔥18👍4💯1



tgoop.com/quant_prune_distill/193
Create:
Last Update:

Sora (Video generation models as world simulators)

Полагаю, все уже успели полюбоваться новым детищем от OpenAI под названием Sora. Классные разборы уже появились у светочей и рупоров отечетсвенного AI (пост Сиолошной, пост на Любовь, Смерть, Трансформеры), как и веселые мемчики. Со своей стороны лишь накину пару мыслей и соображений после прочтения отчетов и залипания в видосики.

В отчете ожидаемо (given the competitive landscape and the safety implications бла-бла-бла) не прозвучали какие-либо детали о сборе и фильтрации датасета, архитектуре, пайплайне обучения. На основе отчета можно сделать следующиее выводы:

1️⃣ Архитектура модели - некий здоровенный трансформер, работающий на пространственно-временных патчах.
2️⃣ Модель - латентная. Есть энкодер, превращающий видео с большим пространственным и временным разрешением в некое компактное латентное представление, в котором и происходит диффузионный процесс. И декодер, превращающий латенты обратно в видео.
3️⃣ Модель можно обуславливать на текст, текст + изображение, и использовать для продолжения коротких клипов. Кроме того, можно редактировать видео с помощью промпта и интерполировать два ролика осмысленным образом.
4️⃣ В процессе обучения модели, по всей видимости, на вход подавались и изображения, и картинки. Картинка эквивалентна видео из одного кадра.
5️⃣ Модель обучалась на исходных, необрезанных картинках. Благодаря этому она не генерирует обрезанный контект и способна работать в любом разрешении. Интересно, как они батчевали кадры разного разрешения. Возможно, encoder/decoder способен приводить все к одному разрешению, обуславливаясь на разрешение входа. А может, модель настолько большая, что батч больше одного все равно не лезет в сие чудище.
6️⃣ Модель обладает пространственно-временной консистентностью. Закрытие одного обьекта другим (occlusion), не приводит к характерным артефактам.
7️⃣ Генерировать можно ролики и изображения с разрешением до 2k.
8️⃣ Как и в DALLE-3, большую роль играют синтетические описания, сгененированные специально обученной для этого моделью.

Спекуляции и догадки
1⃣️️ По всей видимости. модель под капотом и обьем данных/вычислений, потраченных на обучения модели, реально колосалльны. Скорее всего сама модель значительно больше, чем SDXL, Emu, и иные модели, о которых хоть что-то известно.
2⃣️️ Полагаю, что в обучении было задействовано много синтетики зарендеренной Unreal Engine 5, или чем-то подобным. Многие ролики напоминают генерации движка 3D графики. Таким образом можно задавать пространственно-временную информацию куда более явно, чем weak supervision с огромного числа видеороликов и клипов.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/193

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month.
from us


Telegram КПД
FROM American