tgoop.com/gonzo_ML/1099
Last Update:
Пока совсем кратко. Генеративный ИИ наконец добрался до генерации видео по текстовому промпту. Марк Цукерберг сегодня анонсировал свежую работу (https://www.facebook.com/4/posts/pfbid0zeP5MtjQmg4FpMR4JN3CWsxDgSd71TU1jrThwmTyvy1QFAsfwKgnpZEgpP3z3LD7l/) под названием Make-A-Video.
Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.
Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.
У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://www.tgoop.com/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).
Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).
Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).
Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/
Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.
Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
BY gonzo-обзоры ML статей
Share with your friend now:
tgoop.com/gonzo_ML/1099