tgoop.com/dlinnlp/1646
Create:
Last Update:
Last Update:
AudioPALM — аудио-языковая модель от Google
arxiv.org/abs//2306.12925
Языковая моделька которая принимает на вход текстовые и/или аудио токены и генерирует текстовые и/или аудио токены. Построена с помощью файтнюнинга чисто языковой модели PALM во время которого к ней прикручивали аудио токены. Для того чтобы превратить сгенерированные хиддены в аудио, их детокенизируют через AudioLM stage 2 и 3.
Модель умеет очень неплохо переводить язык с аудио в аудио на другом языке, сохраняя голос и эмоции человека. Интересно что с несколькими языками (итальянский, немецкий) модель переводит с заметным акцентом, а с другими (французский) переводит с чистым американским акцентов.
(смотрите видео обязательно со звуком)
BY DL in NLP
Share with your friend now:
tgoop.com/dlinnlp/1646