MACHINELEARNING_RU Telegram 2386
🔥 Ultravox — мультимодальная LLM, которая может работать как с текстом, так и с аудио в реальном времени!

🌟 В отличие от традиционных систем, Ultravox не требует отдельного этапа распознавания речи (ASR) — аудио напрямую преобразуется в высокоразмерное пространство, используемое языковой моделью. Это обеспечивает высокую скорость обработки и позволяет модели учитывать такие аспекты речи, как эмоции и тайминг.

💡 Ultravox был обучен с использованием моделей, таких как Llama 3, Mistral и Gemma, и достигает впечатляющих показателей производительности, например, время до первого токена (TTFT) составляет около 150 мс. Модель поддерживает потоковую обработку аудио в текст, а в будущем планируется реализация обратного преобразования текста в аудио. Ultravox доступен для тестирования через локальные Gradio-демоверсии и может быть развернут для более сложных случаев использования, таких как работа в реальном времени.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥1



tgoop.com/machinelearning_ru/2386
Create:
Last Update:

🔥 Ultravox — мультимодальная LLM, которая может работать как с текстом, так и с аудио в реальном времени!

🌟 В отличие от традиционных систем, Ultravox не требует отдельного этапа распознавания речи (ASR) — аудио напрямую преобразуется в высокоразмерное пространство, используемое языковой моделью. Это обеспечивает высокую скорость обработки и позволяет модели учитывать такие аспекты речи, как эмоции и тайминг.

💡 Ultravox был обучен с использованием моделей, таких как Llama 3, Mistral и Gemma, и достигает впечатляющих показателей производительности, например, время до первого токена (TTFT) составляет около 150 мс. Модель поддерживает потоковую обработку аудио в текст, а в будущем планируется реализация обратного преобразования текста в аудио. Ultravox доступен для тестирования через локальные Gradio-демоверсии и может быть развернут для более сложных случаев использования, таких как работа в реальном времени.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

BY Машинное обучение RU




Share with your friend now:
tgoop.com/machinelearning_ru/2386

View MORE
Open in Telegram


Telegram News

Date: |

Clear As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” How to Create a Private or Public Channel on Telegram? In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. fire bomb molotov November 18 Dylan Hollingsworth yau ma tei
from us


Telegram Машинное обучение RU
FROM American