Python/ django@pythonl P.4812

Python/ django

🧠 Как клонировать голос с помощью Open Source (Coqui TTS)

Хочешь, чтобы ИИ говорил твоим голосом? Без подписок, платных API и ограничений? Вот подробная инструкция, как клонировать свой голос с нуля с помощью open-source инструментов:

🔧 Установка


sudo apt install ffmpeg
pip install TTS soundfile torchaudio gradio

git clone https://github.com/coqui-ai/TTS.git
cd TTS
pip install -e .

🎙️ 1. Подготовка записи голоса

Тебе нужен файл .wav:
- продолжительность: от 1 минуты
- формат: моно, 16 кГц, 16-bit

Пример конвертации:


ffmpeg -i input.mp3 -ac 1 -ar 16000 output.wav

🧬 2. Генерация эмбеддинга твоего голоса


from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
model = Xtts.init_from_config(config)
model.load_checkpoint("tts_models/multilingual/multi-dataset/xtts_v2")

voice_sample = "your_voice.wav"
speaker_embedding = model.get_speaker_embedding(voice_sample)

📤 3. Генерация речи с твоим голосом


text = "Привет! Я теперь могу говорить твоим голосом."
wav = model.tts(text, speaker_embedding=speaker_embedding)
model.save_wav(wav, "output.wav")

💻 4. (Опционально) Интерфейс с Gradio


import gradio as gr

def speak(text):
    wav = model.tts(text, speaker_embedding=speaker_embedding)
    path = "generated.wav"
    model.save_wav(wav, path)
    return path

gr.Interface(fn=speak, inputs=gr.Textbox(), outputs=gr.Audio()).launch()

✅ Быстрый способ (через CLI)


tts --model_name "tts_models/multilingual/multi-dataset/xtts_v2" \
    --text "Привет, мир!" \
    --speaker_wav path/to/your.wav \
    --out_path output.wav

⚠️ Важно

- 💻 Работает на CPU, но лучше с GPU.
- 🌐 Поддерживает русский язык.

@pythonl

www.tgoop.com/pythonl/4812

7.6K viewsMay 19 at 11:43

tgoop.com/pythonl/4812

Create: 2025-05-19
Last Update: 2025-07-05 12:17:41


sudo apt install ffmpeg
pip install TTS soundfile torchaudio gradio

git clone https://github.com/coqui-ai/TTS.git
cd TTS
pip install -e .


ffmpeg -i input.mp3 -ac 1 -ar 16000 output.wav

🧬 2. Генерация эмбеддинга твоего голоса


from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
model = Xtts.init_from_config(config)
model.load_checkpoint("tts_models/multilingual/multi-dataset/xtts_v2")

voice_sample = "your_voice.wav"
speaker_embedding = model.get_speaker_embedding(voice_sample)

📤 3. Генерация речи с твоим голосом


text = "Привет! Я теперь могу говорить твоим голосом."
wav = model.tts(text, speaker_embedding=speaker_embedding)
model.save_wav(wav, "output.wav")

💻 4. (Опционально) Интерфейс с Gradio


import gradio as gr

def speak(text):
    wav = model.tts(text, speaker_embedding=speaker_embedding)
    path = "generated.wav"
    model.save_wav(wav, path)
    return path

gr.Interface(fn=speak, inputs=gr.Textbox(), outputs=gr.Audio()).launch()

✅ Быстрый способ (через CLI)


tts --model_name "tts_models/multilingual/multi-dataset/xtts_v2" \
    --text "Привет, мир!" \
    --speaker_wav path/to/your.wav \
    --out_path output.wav

⚠️ Важно

- 💻 Работает на CPU, но лучше с GPU.
- 🌐 Поддерживает русский язык.

@pythonl

BY Python/ django

Share with your friend now:
tgoop.com/pythonl/4812

Telegram News

🧠 Как клонировать голос с помощью Open Source (Coqui TTS)