SAVOSTYANOV_DMITRY Telegram 568
Про VQ-VAE и стероиды

В задаче text-to-motion мы используем связку VQ-VAE + LLM, где VQ-VAE снижает временную размерность анимации, превращая условные 64 keyframes с 100+ фичей для разных суставов в небольшую последовательность текстовых токенов <m21><m345>…<m9>. LLM в свою очередь трактует эти токены как новый язык и учится переводить промпт с английского на “анимационный” и обратно.

Так вот чтобы эта связка работала, нужен VQ-VAE очень хорошего качества, который сможет эффективно кодировать движения в короткие последовательности и при этом не вносить артефакты, когда ноги скользят по земле или ходят по воздуху, а позвоночник колеблется из стороны в сторону как колбаса.

Вчера прочитал статью про WavTokenizer — квантизация аудио. Сложилось ощущение, что чуваки обкололи VQ-VAE стероидами:

- LSTM в энкодере
- Attention и Фурье вместо dilated Conv1D в декодере
- Куча дискриминаторов в loss, которые по сути превращают архитектуру в VQ-GAN
- k-means инициализации codebook и техники по предотвращению мертвых токенов

Красота. Надо будет потестить.

Статью подсмотрел здесь: https://www.tgoop.com/abstractDL/298



tgoop.com/savostyanov_dmitry/568
Create:
Last Update:

Про VQ-VAE и стероиды

В задаче text-to-motion мы используем связку VQ-VAE + LLM, где VQ-VAE снижает временную размерность анимации, превращая условные 64 keyframes с 100+ фичей для разных суставов в небольшую последовательность текстовых токенов <m21><m345>…<m9>. LLM в свою очередь трактует эти токены как новый язык и учится переводить промпт с английского на “анимационный” и обратно.

Так вот чтобы эта связка работала, нужен VQ-VAE очень хорошего качества, который сможет эффективно кодировать движения в короткие последовательности и при этом не вносить артефакты, когда ноги скользят по земле или ходят по воздуху, а позвоночник колеблется из стороны в сторону как колбаса.

Вчера прочитал статью про WavTokenizer — квантизация аудио. Сложилось ощущение, что чуваки обкололи VQ-VAE стероидами:

- LSTM в энкодере
- Attention и Фурье вместо dilated Conv1D в декодере
- Куча дискриминаторов в loss, которые по сути превращают архитектуру в VQ-GAN
- k-means инициализации codebook и техники по предотвращению мертвых токенов

Красота. Надо будет потестить.

Статью подсмотрел здесь: https://www.tgoop.com/abstractDL/298

BY Дмитрий Савостьянов Вещает




Share with your friend now:
tgoop.com/savostyanov_dmitry/568

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. 4How to customize a Telegram channel? With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree."
from us


Telegram Дмитрий Савостьянов Вещает
FROM American