tgoop.com/quant_prune_distill/284
Last Update:
Real-Time Video Generation with Pyramid Attention Broadcast
[Cтатьи Нет][Код есть]
В ряде отечественных тг каналов (пост на эйай ньюз, пост на Machine Learning) упомянули проект Real-Time Video Generation with Pyramid Attention Broadcast.
Самой папиры еще нет и потому какие-то нюансы могут быть неизвестны.
От себя добавлю несколько деталей.
Суть подхода заключается в следующем. В видео диффузии есть 3 вида attention операций:
1️⃣ Пространственное 🌌
2️⃣ Временное ⏳
3️⃣ Перекрестное внимание на condition 🤞
Ранее в Cache Me If You Can было замечено, что карты attention между соседними шагами диффузии мало меняются между соседними шагами на большей части процесса (за исключением начала и конца) при картиночной генерации. В данном проекте авторы замечают, что для скорости изменения attention карт справедливо следующее неравенство:v_cross < v_time < v_spatial
И соотвественно, чем медленее меняется attention, тем чаще он переиспользуется.
За счет переиспользования карт attention можно параллелить эффективно между разными GPU разные шаги генерации по времени (уменьшении оверхеда на 50% без переиспользования карт).
Переиспользование карт дает ускорение ~30%. А распаралелливание на 8 GPU дает почти линейное ускорение (8.4x-10.6x) по сравнению с генерацией на одной GPU наивным способом. То есть ускорение достигается в первую очередь за счет эффективного параллелизма.
Тем не менее, достойный инженерный результат.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/284