TENSORBANANA Telegram 1183
Продолжаем любую mp3 с Yue

Добавил в Yue (генератор песен) возможность продолжить любой загруженную mp3 с клонированием голоса и мелодии.

- в приложенных примерах первое четверостишие - оригинал, остальные - генерация. В Summertime sadness - первое четверостишие напето в домашних условиях.
- лучше всего продолжает после одного первого куплета.
- голос клонирует не всегда один в один, но старается.
- мелодию продолжает довольно хорошо.
- русский поддерживается, но будет с легким акцентом.
- можно изменять язык песни с сохранением голоса.
- работает на движке exllama (самый быстрый среди того, что я тестил)
- поддержка продолжения предыдущей генерации. Так можно генерировать бесконечные песни.
- есть web GUI (либо работа из консоли)
- никаких ограничений по копирайту
- бесплатно

- требует 8 GB vram (на 6 тоже запустится, но нужно квант поменьше и генерировать всего 1 куплет)
- чем больше куплетов - тем больше надо vram
- скорость на 3090:
- 1 минута на выходе = 03:40 генерации (COT),
- 1 минута на выходе = 05:00 генерации (COT + mp3 extend)


## Установка под Windows (без wsl)

Будут нужны
- питон 3.9 (3.10 тоже подойдет, но ссылки все будут другие)
- torch 2.4.0 (exllama и flash_attn скомпилированы лишь для нескольких версий торча. 2.5.1 не подойдет)
- cuda toolkit 12.4+

conda create -n yue python=3.9
conda activate yue

:: ставим торч, exllama и flash_attn-2
pip install torch==2.4.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install https://github.com/turboderp-org/exllamav2/releases/download/v0.2.7/exllamav2-0.2.7+cu121.torch2.4.0-cp39-cp39-win_amd64.whl
pip install https://github.com/bdashore3/flash-attention/releases/download/v2.7.1.post1/flash_attn-2.7.1.post1+cu124torch2.4.0cxx11abiFALSE-cp39-cp39-win_amd64.whl

git lfs install
git clone https://github.com/Mozer/YuE-extend
cd YuE-extend
pip install -r requirements.txt
git clone https://huggingface.co/m-a-p/xcodec_mini_infer

:: качаем 3 exl2 модели (5.7 + 5.7 GB + 1.8) в папку workspace\models:
huggingface-cli download Alissonerdx/YuE-s1-7B-anneal-en-cot-exl2-8.0bpw --local-dir workspace\models\YuE-s1-7B-anneal-en-cot-exl2-8.0bpw
huggingface-cli download Ftfyhh/YuE-s1-7B-anneal-en-icl-8.0bpw-exl2 --local-dir YuE-s1-7B-anneal-en-icl-8.0bpw-exl2
huggingface-cli download Alissonerdx/YuE-s2-1B-general-exl2-8.0bpw --local-dir workspace\models\YuE-s2-1B-general-exl2-8.0bpw


запускаем (двойной клик) start-gui.bat
переходим по http://127.0.0.1:7860/



## Генерация (продолжение mp3)
Есть 3 способа: COT модель, ICL модель + 2 дополнительные дорожки, ICL модель + 1 дополнительная общая дорожка.
Первый, самый простой и проверенный. В web UI:
- Stage 1 model: YuE-s1-7B-anneal-en-cot-exl2-8.0bpw
- Lyrics: полный текст песни. Первый сегмент [verse] должен включать всё то, после чего будет сгенерировано продолжение. Первый сегмент рекомендуется ограничить одним четверостишием.
- Установите флажок "Extend mp3".
- Разделите свой mp3 на вокал.mp3 + инструментал.mp3. Для разделения используйте: https://huggingface.co/spaces/theneos/audio-separator или https://www.audiostrip.com/isolate или https://www.lalal.ai/ или https://vocalremover.org/
- Загрузите vocal.mp3 + instrumental.mp3 в 2 поля файла.
- Найдите точное время, когда заканчивается вокал в первом куплете в вашем mp3, например, 15 сек, введите в поле "Seconds to take from mp3".
- Generate

Дополнительные галочки "Use Dual Tracks Audio Prompt?" и "Use Audio Prompt? (both vocal and instrumental)" дадут модели полную музыку всей песни. Но так контролировать генерацию становится намного труднее. Модель будет стараться сгенерировать то что уже было, будет повторять исходник один в один. В таких режимах попробуйте установить "Audio prompt End Time" на 1-2-3 секунды больше чем в поле "Seconds to take from mp3". Экспериментируйте с разными отрезками, чтобы найти баланс похожести и новизны генерации.

Код: https://github.com/Mozer/YuE-extend

Бесплатный колаб:
https://colab.research.google.com/github/Mozer/YuE-extend/blob/main/colab/Yue_extend_with_exllama.ipynb
62👍36🔥103😁2



tgoop.com/tensorbanana/1183
Create:
Last Update:

Продолжаем любую mp3 с Yue

Добавил в Yue (генератор песен) возможность продолжить любой загруженную mp3 с клонированием голоса и мелодии.

- в приложенных примерах первое четверостишие - оригинал, остальные - генерация. В Summertime sadness - первое четверостишие напето в домашних условиях.
- лучше всего продолжает после одного первого куплета.
- голос клонирует не всегда один в один, но старается.
- мелодию продолжает довольно хорошо.
- русский поддерживается, но будет с легким акцентом.
- можно изменять язык песни с сохранением голоса.
- работает на движке exllama (самый быстрый среди того, что я тестил)
- поддержка продолжения предыдущей генерации. Так можно генерировать бесконечные песни.
- есть web GUI (либо работа из консоли)
- никаких ограничений по копирайту
- бесплатно

- требует 8 GB vram (на 6 тоже запустится, но нужно квант поменьше и генерировать всего 1 куплет)
- чем больше куплетов - тем больше надо vram
- скорость на 3090:
- 1 минута на выходе = 03:40 генерации (COT),
- 1 минута на выходе = 05:00 генерации (COT + mp3 extend)


## Установка под Windows (без wsl)

Будут нужны
- питон 3.9 (3.10 тоже подойдет, но ссылки все будут другие)
- torch 2.4.0 (exllama и flash_attn скомпилированы лишь для нескольких версий торча. 2.5.1 не подойдет)
- cuda toolkit 12.4+

conda create -n yue python=3.9
conda activate yue

:: ставим торч, exllama и flash_attn-2
pip install torch==2.4.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install https://github.com/turboderp-org/exllamav2/releases/download/v0.2.7/exllamav2-0.2.7+cu121.torch2.4.0-cp39-cp39-win_amd64.whl
pip install https://github.com/bdashore3/flash-attention/releases/download/v2.7.1.post1/flash_attn-2.7.1.post1+cu124torch2.4.0cxx11abiFALSE-cp39-cp39-win_amd64.whl

git lfs install
git clone https://github.com/Mozer/YuE-extend
cd YuE-extend
pip install -r requirements.txt
git clone https://huggingface.co/m-a-p/xcodec_mini_infer

:: качаем 3 exl2 модели (5.7 + 5.7 GB + 1.8) в папку workspace\models:
huggingface-cli download Alissonerdx/YuE-s1-7B-anneal-en-cot-exl2-8.0bpw --local-dir workspace\models\YuE-s1-7B-anneal-en-cot-exl2-8.0bpw
huggingface-cli download Ftfyhh/YuE-s1-7B-anneal-en-icl-8.0bpw-exl2 --local-dir YuE-s1-7B-anneal-en-icl-8.0bpw-exl2
huggingface-cli download Alissonerdx/YuE-s2-1B-general-exl2-8.0bpw --local-dir workspace\models\YuE-s2-1B-general-exl2-8.0bpw


запускаем (двойной клик) start-gui.bat
переходим по http://127.0.0.1:7860/



## Генерация (продолжение mp3)
Есть 3 способа: COT модель, ICL модель + 2 дополнительные дорожки, ICL модель + 1 дополнительная общая дорожка.
Первый, самый простой и проверенный. В web UI:
- Stage 1 model: YuE-s1-7B-anneal-en-cot-exl2-8.0bpw
- Lyrics: полный текст песни. Первый сегмент [verse] должен включать всё то, после чего будет сгенерировано продолжение. Первый сегмент рекомендуется ограничить одним четверостишием.
- Установите флажок "Extend mp3".
- Разделите свой mp3 на вокал.mp3 + инструментал.mp3. Для разделения используйте: https://huggingface.co/spaces/theneos/audio-separator или https://www.audiostrip.com/isolate или https://www.lalal.ai/ или https://vocalremover.org/
- Загрузите vocal.mp3 + instrumental.mp3 в 2 поля файла.
- Найдите точное время, когда заканчивается вокал в первом куплете в вашем mp3, например, 15 сек, введите в поле "Seconds to take from mp3".
- Generate

Дополнительные галочки "Use Dual Tracks Audio Prompt?" и "Use Audio Prompt? (both vocal and instrumental)" дадут модели полную музыку всей песни. Но так контролировать генерацию становится намного труднее. Модель будет стараться сгенерировать то что уже было, будет повторять исходник один в один. В таких режимах попробуйте установить "Audio prompt End Time" на 1-2-3 секунды больше чем в поле "Seconds to take from mp3". Экспериментируйте с разными отрезками, чтобы найти баланс похожести и новизны генерации.

Код: https://github.com/Mozer/YuE-extend

Бесплатный колаб:
https://colab.research.google.com/github/Mozer/YuE-extend/blob/main/colab/Yue_extend_with_exllama.ipynb

BY Tensor Banana


Share with your friend now:
tgoop.com/tensorbanana/1183

View MORE
Open in Telegram


Telegram News

Date: |

Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Some Telegram Channels content management tips Polls Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link).
from us


Telegram Tensor Banana
FROM American