AI_NEWZ Telegram 2923
⚡️Вау! Real-time генерация видео стала ближе к реальности.

Челики ускорили диффузию для видеогенерации в 10x раз! Утверждают, что качество при этом не теряется. На видео пример того, как они ускорили Open-Sora, например.

Генерация со скоростью 21 fps на 8 видеокартах. Для сравнения, до этого из восьми видеокарт с помощью tensor parallelism можно было выжать ускорение не более чем в 3-4 раза по сравнению с одной.

Если сейчас 60-сек генерации модели уровня Соры занимает по моим прикидкам от 20 минут до нескольких часов, то в ближайший год мы увидим ускорение этого процеса на 1 или 2 порядка. Pyramid Attention Broadcast делает шаг в этом направлении.

Идея базируется на тех же инсайтах, что мы вывели в нашей статье Cache me if you can о том, что выходы аттеншен слои могут быть закешированы и могут переиспользоваться во время шагов инференса. Или вот статья от господина Шмидхубера, где они кешируют cross-attention слои.

Ссылка на проект - Real-Time Video Generation with Pyramid Attention Broadcast

Статьи пока нет, но код уже есть тут.

@ai_newz
🤯108🔥47👍2811



tgoop.com/ai_newz/2923
Create:
Last Update:

⚡️Вау! Real-time генерация видео стала ближе к реальности.

Челики ускорили диффузию для видеогенерации в 10x раз! Утверждают, что качество при этом не теряется. На видео пример того, как они ускорили Open-Sora, например.

Генерация со скоростью 21 fps на 8 видеокартах. Для сравнения, до этого из восьми видеокарт с помощью tensor parallelism можно было выжать ускорение не более чем в 3-4 раза по сравнению с одной.

Если сейчас 60-сек генерации модели уровня Соры занимает по моим прикидкам от 20 минут до нескольких часов, то в ближайший год мы увидим ускорение этого процеса на 1 или 2 порядка. Pyramid Attention Broadcast делает шаг в этом направлении.

Идея базируется на тех же инсайтах, что мы вывели в нашей статье Cache me if you can о том, что выходы аттеншен слои могут быть закешированы и могут переиспользоваться во время шагов инференса. Или вот статья от господина Шмидхубера, где они кешируют cross-attention слои.

Ссылка на проект - Real-Time Video Generation with Pyramid Attention Broadcast

Статьи пока нет, но код уже есть тут.

@ai_newz

BY эйай ньюз


Share with your friend now:
tgoop.com/ai_newz/2923

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. Image: Telegram. Write your hashtags in the language of your target audience. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. A vandalised bank during the 2019 protest. File photo: May James/HKFP.
from us


Telegram эйай ньюз
FROM American