Дмитрий Савостьянов Вещает@savostyanov

Дмитрий Савостьянов Вещает

Про VQ-VAE и стероиды

В задаче text-to-motion мы используем связку VQ-VAE + LLM, где VQ-VAE снижает временную размерность анимации, превращая условные 64 keyframes с 100+ фичей для разных суставов в небольшую последовательность текстовых токенов <m21><m345>…<m9>. LLM в свою очередь трактует эти токены как новый язык и учится переводить промпт с английского на “анимационный” и обратно.

Так вот чтобы эта связка работала, нужен VQ-VAE очень хорошего качества, который сможет эффективно кодировать движения в короткие последовательности и при этом не вносить артефакты, когда ноги скользят по земле или ходят по воздуху, а позвоночник колеблется из стороны в сторону как колбаса.

Вчера прочитал статью про WavTokenizer — квантизация аудио. Сложилось ощущение, что чуваки обкололи VQ-VAE стероидами:

- LSTM в энкодере
- Attention и Фурье вместо dilated Conv1D в декодере
- Куча дискриминаторов в loss, которые по сути превращают архитектуру в VQ-GAN
- k-means инициализации codebook и техники по предотвращению мертвых токенов

Красота. Надо будет потестить.

Статью подсмотрел здесь: https://www.tgoop.com/abstractDL/298

AbstractDL

WavTokenizer: SOTA токенизатор аудио

Кажется, это прорыв. Ему хватает всего 75 токенов в секунду, чтобы поставить рекорд в качестве реконструкции речи. При этом всё работает довольно сносно и для 45 ток/с. Предыдущие решения даже близко не стояли!

Как авторам…

www.tgoop.com/savostyanov_dmitry/568

661 viewsOct 1, 2024 at 15:25

tgoop.com/savostyanov_dmitry/568

Create: 2024-10-01
Last Update: 2025-06-23 20:46:24

BY Дмитрий Савостьянов Вещает

Share with your friend now:
tgoop.com/savostyanov_dmitry/568

Telegram News

Про VQ-VAE и стероиды