BIGDATA_1 Telegram 954
Mini-Omni

В данной работе представлена Mini-Omni — аудиобазированная сквозная модель для диалогового взаимодействия в реальном времени. Чтобы достичь этой возможности, мы предлагаем метод генерации речи, управляемый текстовыми инструкциями, а также стратегию batch-parallel во время инференса, что дополнительно повышает производительность. Наш метод также позволяет сохранить исходные языковые способности модели с минимальной деградацией, обеспечивая основу для создания других моделей с возможностями взаимодействия в реальном времени. Мы называем этот метод обучения "Любая модель может говорить" (*Any Model Can Talk*).

Кроме того, мы представляем VoiceAssistant-400K — датасет, предназначенный для дообучения моделей, оптимизированных для генерации речи. Насколько нам известно, Mini-Omni является первой полностью сквозной open-source моделью для взаимодействия с речью в реальном времени, открывая новые перспективы для будущих исследований.


https://huggingface.co/gpt-omni/mini-omni/tree/main

https://arxiv.org/abs/2408.16725

https://github.com/gpt-omni/mini-omni


👉 @bigdata_1
👍1



tgoop.com/bigdata_1/954
Create:
Last Update:

Mini-Omni

В данной работе представлена Mini-Omni — аудиобазированная сквозная модель для диалогового взаимодействия в реальном времени. Чтобы достичь этой возможности, мы предлагаем метод генерации речи, управляемый текстовыми инструкциями, а также стратегию batch-parallel во время инференса, что дополнительно повышает производительность. Наш метод также позволяет сохранить исходные языковые способности модели с минимальной деградацией, обеспечивая основу для создания других моделей с возможностями взаимодействия в реальном времени. Мы называем этот метод обучения "Любая модель может говорить" (*Any Model Can Talk*).

Кроме того, мы представляем VoiceAssistant-400K — датасет, предназначенный для дообучения моделей, оптимизированных для генерации речи. Насколько нам известно, Mini-Omni является первой полностью сквозной open-source моделью для взаимодействия с речью в реальном времени, открывая новые перспективы для будущих исследований.


https://huggingface.co/gpt-omni/mini-omni/tree/main

https://arxiv.org/abs/2408.16725

https://github.com/gpt-omni/mini-omni


👉 @bigdata_1

BY BigData


Share with your friend now:
tgoop.com/bigdata_1/954

View MORE
Open in Telegram


Telegram News

Date: |

Activate up to 20 bots With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. Invite up to 200 users from your contacts to join your channel The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment.
from us


Telegram BigData
FROM American