Вы уже в курсе, что Sora не только генерирует видео, но и способна создавать изображения? Этот искусственный интеллект может производить картинки с разрешением до 2048x2048 пикселей.
Вот несколько примеров простых промптов:
- Портретная съемка крупным планом женщины осенью, высокая детализация, малая глубина резкости
- Яркий коралловый риф, кишащий разноцветными рыбами и морскими обитателями
@neuraldeep
Вот несколько примеров простых промптов:
- Портретная съемка крупным планом женщины осенью, высокая детализация, малая глубина резкости
- Яркий коралловый риф, кишащий разноцветными рыбами и морскими обитателями
@neuraldeep
Forwarded from red_mad_robot
Помните, как мы пообещали начать разбираться в LLM вместе с вами и пропали на три недели? А потом выложили один и тот же пост дважды.
Поймите наше упорство — просто очень хотим быть точными в вопросе сложных технологий и нигде не соврать. Мы пересмотрели несколько часов лекций светил науки, замучили экспертов из NDT by red_mad_robot своими вопросами и наконец нашли формат, который действительно расставил в наших головах базовые понятия об LLM по полочкам. Им оказалось видео с дипфейковым Райаном Гослингом, доступно объясняющим принцип работы больших языковых моделей.
Если по каким-то необъяснимым причинам вы не хотите восемь минут смотреть на Райана Гослинга, рассказываем в карточках.
А в следующий раз обещаем рассказать про эмбеддинги, механизм внимания и другие термины, от которых иногда голова идёт кругом. Не переключайтесь.
#GenAI_101
Поймите наше упорство — просто очень хотим быть точными в вопросе сложных технологий и нигде не соврать. Мы пересмотрели несколько часов лекций светил науки, замучили экспертов из NDT by red_mad_robot своими вопросами и наконец нашли формат, который действительно расставил в наших головах базовые понятия об LLM по полочкам. Им оказалось видео с дипфейковым Райаном Гослингом, доступно объясняющим принцип работы больших языковых моделей.
Если по каким-то необъяснимым причинам вы не хотите восемь минут смотреть на Райана Гослинга, рассказываем в карточках.
А в следующий раз обещаем рассказать про эмбеддинги, механизм внимания и другие термины, от которых иногда голова идёт кругом. Не переключайтесь.
#GenAI_101
This media is not supported in your browser
VIEW IN TELEGRAM
Энтузиасты из сообщества Twitter создали инфографику, отображающую изменения в рейтинге популярных чат-ботов, которые составляют так называемую ChatBot Arena, за последний год.
ChatBot GPT по-прежнему удерживает лидирующие позиции, однако конкуренты активно набирают обороты и оказывают давление. Сфера конкуренции в данной области набирает обороты, и все с интересом ожидают, какие еще инновационные решения сможет предложить компания ClosedAI.
Для получения дополнительной информации о том, что представляет собой ChatBot Arena, обратитесь по указанной ссылке.
@neuraldeep
ChatBot GPT по-прежнему удерживает лидирующие позиции, однако конкуренты активно набирают обороты и оказывают давление. Сфера конкуренции в данной области набирает обороты, и все с интересом ожидают, какие еще инновационные решения сможет предложить компания ClosedAI.
Для получения дополнительной информации о том, что представляет собой ChatBot Arena, обратитесь по указанной ссылке.
@neuraldeep
Forwarded from Forbes Russia
С момента появления ChatGPT прошло полтора года, и, преодолев все стадии от скепсиса до восторга, бизнес столкнулся с непониманием того, как использовать LLM (Large Language Models, большие языковые модели) в своих процессах и какой реальный бизнес-эффект они дают?
Постепенно рынок осознает, что внедрение генеративного ИИ требует дополнительных инвестиций — как в компетенции, так и в ресурсы, — и двигается осторожно, соизмеряя возможную выгоду с рисками.
О том, когда большие языковые модели займут уверенную позицию и достигнут пика своих мощностей, рассуждает Валерий Ковальский, СЕО AI-лаборатории Neuraldeep.tech (входит в группу компаний red_mad_robot)
📸: Nikolas Kokovlis / NurPhoto / Reuters
Постепенно рынок осознает, что внедрение генеративного ИИ требует дополнительных инвестиций — как в компетенции, так и в ресурсы, — и двигается осторожно, соизмеряя возможную выгоду с рисками.
О том, когда большие языковые модели займут уверенную позицию и достигнут пика своих мощностей, рассуждает Валерий Ковальский, СЕО AI-лаборатории Neuraldeep.tech (входит в группу компаний red_mad_robot)
📸: Nikolas Kokovlis / NurPhoto / Reuters
This media is not supported in your browser
VIEW IN TELEGRAM
Самое замечательное, что через несколько лет мы вступим в эпоху, когда все ваши личные фотографии, важные для вас, будут оживать, как в Гарри Поттере. Какое чудесное время для жизни! 🥰
С вами на связи @Vakovalskii
И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем
Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!
До сих пор OpenAI не выпустила функцию общения с Omni.
А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.
Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)
А дальше что?
Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).
А дальше что?
Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!
Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).
LLM надо квантовать и сделать легче (готово взяли llama3-4bit)
Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)
На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.
Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам
Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.
В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.
Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами
Тесты мои
Текст мой
Голос мой
=)
И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем
Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!
До сих пор OpenAI не выпустила функцию общения с Omni.
А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.
Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)
А дальше что?
Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).
А дальше что?
Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!
Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).
LLM надо квантовать и сделать легче (готово взяли llama3-4bit)
Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)
На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.
Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам
Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.
В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.
Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами
Тесты мои
Текст мой
Голос мой
=)