tgoop.com/quant_prune_distill/193
Last Update:
Sora (Video generation models as world simulators)
Полагаю, все уже успели полюбоваться новым детищем от OpenAI под названием Sora. Классные разборы уже появились у светочей и рупоров отечетсвенного AI (пост Сиолошной, пост на Любовь, Смерть, Трансформеры), как и веселые мемчики. Со своей стороны лишь накину пару мыслей и соображений после прочтения отчетов и залипания в видосики.
В отчете ожидаемо (given the competitive landscape and the safety implications бла-бла-бла) не прозвучали какие-либо детали о сборе и фильтрации датасета, архитектуре, пайплайне обучения. На основе отчета можно сделать следующиее выводы:
1️⃣ Архитектура модели - некий здоровенный трансформер, работающий на пространственно-временных патчах.
2️⃣ Модель - латентная. Есть энкодер, превращающий видео с большим пространственным и временным разрешением в некое компактное латентное представление, в котором и происходит диффузионный процесс. И декодер, превращающий латенты обратно в видео.
3️⃣ Модель можно обуславливать на текст, текст + изображение, и использовать для продолжения коротких клипов. Кроме того, можно редактировать видео с помощью промпта и интерполировать два ролика осмысленным образом.
4️⃣ В процессе обучения модели, по всей видимости, на вход подавались и изображения, и картинки. Картинка эквивалентна видео из одного кадра.
5️⃣ Модель обучалась на исходных, необрезанных картинках. Благодаря этому она не генерирует обрезанный контект и способна работать в любом разрешении. Интересно, как они батчевали кадры разного разрешения. Возможно, encoder/decoder способен приводить все к одному разрешению, обуславливаясь на разрешение входа. А может, модель настолько большая, что батч больше одного все равно не лезет в сие чудище.
6️⃣ Модель обладает пространственно-временной консистентностью. Закрытие одного обьекта другим (occlusion), не приводит к характерным артефактам.
7️⃣ Генерировать можно ролики и изображения с разрешением до 2k.
8️⃣ Как и в DALLE-3, большую роль играют синтетические описания, сгененированные специально обученной для этого моделью.
Спекуляции и догадки
1⃣️️ По всей видимости. модель под капотом и обьем данных/вычислений, потраченных на обучения модели, реально колосалльны. Скорее всего сама модель значительно больше, чем SDXL, Emu, и иные модели, о которых хоть что-то известно.
2⃣️️ Полагаю, что в обучении было задействовано много синтетики зарендеренной Unreal Engine 5, или чем-то подобным. Многие ролики напоминают генерации движка 3D графики. Таким образом можно задавать пространственно-временную информацию куда более явно, чем weak supervision с огромного числа видеороликов и клипов.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/193