Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
2🔥7❤3👍1
tgoop.com/opendatascience/2552
Create:
Last Update:
Last Update:
Наш русскоязычный датасет для TTS опубликован!
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
BY Data Science by ODS.ai 🦜
Share with your friend now:
tgoop.com/opendatascience/2552