MAX_DOT_SH Telegram 100
🔊 Chatterbox TTS —Yet Another Opensource TTS SoTA

Компания resemble.ai выложили в опенсоурс Chatterbox TTS. 0.5B модель на основе LLama3 backbone, обучена на 0.5M часов чистых данных. Данные высокого качества и разной природы. Модель поддерживает контроль экспрессивности синтеза через гипер-параметры (выкручивание exaggeration приводит к ускорению речи, понижение — к большей драме).

Репортят latency в 200ms, что делает модель довольно удобной для интерактивных голосовых приложений, real time ассистентов.

Наконец, пишут, что модель - SoTA. За бейзлайн берут решение от 11Labs и сообщают, что в side-by-side Chatterbox TTS strongly preffered. К слову, впервые вижу, что честно выкладывают все детали evaluation репорта и дают на него ссылку. A/B Тест слишком скромный (больше выглядит как черри пик честно), по 8 сэмплов на систему. В тесте просят асессоров оценить zero-shot сэмплы длиной от 7 до 20 секунд на предмет Naturalness и общего качества.

Попробовал в Gradio на HF. Нравится, что хорошо берет дыхание и паузы. Клонирование тембра с дефолтными настройками на моем голосе не очень. Скорее сказал бы, что это плохой voice clone. У Llasa-3B из опенсоурсных гораздо лучше. На реддите пишут, что при некоторых значениях параметров модель сходит с ума.

Cводка:

🔘Лицензия - MIT
🔘GitHub - тут
🔘Веса - тут
🔘Онлайн Демо поиграться самому - тут
🔘Реддит тред с мнениями по модели - тут
🔘Языки - пока только английский, обещают добавить файн-тюн для других языков в скором времени

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/max_dot_sh/100
Create:
Last Update:

🔊 Chatterbox TTS —Yet Another Opensource TTS SoTA

Компания resemble.ai выложили в опенсоурс Chatterbox TTS. 0.5B модель на основе LLama3 backbone, обучена на 0.5M часов чистых данных. Данные высокого качества и разной природы. Модель поддерживает контроль экспрессивности синтеза через гипер-параметры (выкручивание exaggeration приводит к ускорению речи, понижение — к большей драме).

Репортят latency в 200ms, что делает модель довольно удобной для интерактивных голосовых приложений, real time ассистентов.

Наконец, пишут, что модель - SoTA. За бейзлайн берут решение от 11Labs и сообщают, что в side-by-side Chatterbox TTS strongly preffered. К слову, впервые вижу, что честно выкладывают все детали evaluation репорта и дают на него ссылку. A/B Тест слишком скромный (больше выглядит как черри пик честно), по 8 сэмплов на систему. В тесте просят асессоров оценить zero-shot сэмплы длиной от 7 до 20 секунд на предмет Naturalness и общего качества.

Попробовал в Gradio на HF. Нравится, что хорошо берет дыхание и паузы. Клонирование тембра с дефолтными настройками на моем голосе не очень. Скорее сказал бы, что это плохой voice clone. У Llasa-3B из опенсоурсных гораздо лучше. На реддите пишут, что при некоторых значениях параметров модель сходит с ума.

Cводка:

🔘Лицензия - MIT
🔘GitHub - тут
🔘Веса - тут
🔘Онлайн Демо поиграться самому - тут
🔘Реддит тред с мнениями по модели - тут
🔘Языки - пока только английский, обещают добавить файн-тюн для других языков в скором времени

@max_dot_sh

BY max.sh




Share with your friend now:
tgoop.com/max_dot_sh/100

View MORE
Open in Telegram


Telegram News

Date: |

Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Each account can create up to 10 public channels fire bomb molotov November 18 Dylan Hollingsworth yau ma tei
from us


Telegram max.sh
FROM American