Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
978 - Telegram Web
Telegram Web
Вы уже в курсе, что Sora не только генерирует видео, но и способна создавать изображения? Этот искусственный интеллект может производить картинки с разрешением до 2048x2048 пикселей.

Вот несколько примеров простых промптов:

- Портретная съемка крупным планом женщины осенью, высокая детализация, малая глубина резкости
- Яркий коралловый риф, кишащий разноцветными рыбами и морскими обитателями
@neuraldeep
Forwarded from red_mad_robot
Помните, как мы пообещали начать разбираться в LLM вместе с вами и пропали на три недели? А потом выложили один и тот же пост дважды.

Поймите наше упорство — просто очень хотим быть точными в вопросе сложных технологий и нигде не соврать. Мы пересмотрели несколько часов лекций светил науки, замучили экспертов из NDT by red_mad_robot своими вопросами и наконец нашли формат, который действительно расставил в наших головах базовые понятия об LLM по полочкам. Им оказалось видео с дипфейковым Райаном Гослингом, доступно объясняющим принцип работы больших языковых моделей.

Если по каким-то необъяснимым причинам вы не хотите восемь минут смотреть на Райана Гослинга, рассказываем в карточках.

А в следующий раз обещаем рассказать про эмбеддинги, механизм внимания и другие термины, от которых иногда голова идёт кругом. Не переключайтесь.

#GenAI_101
This media is not supported in your browser
VIEW IN TELEGRAM
Энтузиасты из сообщества Twitter создали инфографику, отображающую изменения в рейтинге популярных чат-ботов, которые составляют так называемую ChatBot Arena, за последний год.

ChatBot GPT по-прежнему удерживает лидирующие позиции, однако конкуренты активно набирают обороты и оказывают давление. Сфера конкуренции в данной области набирает обороты, и все с интересом ожидают, какие еще инновационные решения сможет предложить компания ClosedAI.

Для получения дополнительной информации о том, что представляет собой ChatBot Arena, обратитесь по указанной ссылке.
@neuraldeep
Forwarded from Forbes Russia
С момента появления ChatGPT прошло полтора года, и, преодолев все стадии от скепсиса до восторга, бизнес столкнулся с непониманием того, как использовать LLM (Large Language Models, большие языковые модели) в своих процессах и какой реальный бизнес-эффект они дают?

Постепенно рынок осознает, что внедрение генеративного ИИ требует дополнительных инвестиций — как в компетенции, так и в ресурсы, — и двигается осторожно, соизмеряя возможную выгоду с рисками.

О том, когда большие языковые модели займут уверенную позицию и достигнут пика своих мощностей, рассуждает Валерий Ковальский, СЕО AI-лаборатории Neuraldeep.tech (входит в группу компаний red_mad_robot)

📸: Nikolas Kokovlis / NurPhoto / Reuters
Любое обновление ОС и железа последний год:
This media is not supported in your browser
VIEW IN TELEGRAM
Самое замечательное, что через несколько лет мы вступим в эпоху, когда все ваши личные фотографии, важные для вас, будут оживать, как в Гарри Поттере. Какое чудесное время для жизни! 🥰
Я уверен что они лучшие в рекламе и в безопасности
Please open Telegram to view this post
VIEW IN TELEGRAM
С вами на связи @Vakovalskii

И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем

Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!


До сих пор OpenAI не выпустила функцию общения с Omni.

А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.

Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)

А дальше что?

Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).

А дальше что?

Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!

Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).

LLM надо квантовать и сделать легче (готово взяли llama3-4bit)

Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)

На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.

Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам

Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.

В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.

Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами

Тесты мои
Текст мой
Голос мой
=)
2025/07/07 12:49:04
Back to Top
HTML Embed Code: