Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neuraldeep/-976-977-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Neural Deep@neuraldeep P.977
NEURALDEEP Telegram 977
С вами на связи @Vakovalskii

И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем

Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!


До сих пор OpenAI не выпустила функцию общения с Omni.

А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.

Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)

А дальше что?

Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).

А дальше что?

Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!

Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).

LLM надо квантовать и сделать легче (готово взяли llama3-4bit)

Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)

На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.

Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам

Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.

В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.

Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами

Тесты мои
Текст мой
Голос мой
=)
🔥16



tgoop.com/neuraldeep/977
Create:
Last Update:

С вами на связи @Vakovalskii

И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем

Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!


До сих пор OpenAI не выпустила функцию общения с Omni.

А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.

Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)

А дальше что?

Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).

А дальше что?

Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!

Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).

LLM надо квантовать и сделать легче (готово взяли llama3-4bit)

Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)

На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.

Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам

Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.

В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.

Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами

Тесты мои
Текст мой
Голос мой
=)

BY Neural Deep




Share with your friend now:
tgoop.com/neuraldeep/977

View MORE
Open in Telegram


Telegram News

Date: |

Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram Neural Deep
FROM American