OPENDATASCIENCE Telegram 2552
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
2🔥73👍1



tgoop.com/opendatascience/2552
Create:
Last Update:

Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx

BY Data Science by ODS.ai 🦜


Share with your friend now:
tgoop.com/opendatascience/2552

View MORE
Open in Telegram


Telegram News

Date: |

It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. Clear The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.”
from us


Telegram Data Science by ODS.ai 🦜
FROM American