NEURAL_CAT Telegram 141
Qwen3-Omni-30B-A3B-Captioner

Тут Qwen на днях выпустили модель, которая хорошо умеет описывать аудио файлы.

То есть у нее хороший audio understanding, и тут разговор не про распознавание речи. Модель понимает:
multiple speaker emotions, multilingual expressions, and layered intentions. It can also perceive cultural context and implicit information within the audio, enabling a deep comprehension of the underlying meaning behind the spoken words. In non-speech scenarios, the model demonstrates exceptional sound recognition and analysis capabilities, accurately distinguishing and describing intricate layers of real-world sounds, ambient atmospheres, and dynamic audio details in film and media.


Я прогнал через модель звук из видео «Бурановские Бабушки»: В кругу друзей. (всего 223 просмотра — поднажмем!) Получилось достаточно хорошо (см. скрин). Модель даже понимает, к какой секунде относится каждая часть контента.

НО! Нельзя задать промпт, модель принимает только аудио. То есть нельзя, например, попросить оценить акцент вашей речи, — можно только получить полное общее описание.

Вопрос — в каком продукте такая модель могла бы понадобиться?

модель
😛 демка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3



tgoop.com/neural_cat/141
Create:
Last Update:

Qwen3-Omni-30B-A3B-Captioner

Тут Qwen на днях выпустили модель, которая хорошо умеет описывать аудио файлы.

То есть у нее хороший audio understanding, и тут разговор не про распознавание речи. Модель понимает:

multiple speaker emotions, multilingual expressions, and layered intentions. It can also perceive cultural context and implicit information within the audio, enabling a deep comprehension of the underlying meaning behind the spoken words. In non-speech scenarios, the model demonstrates exceptional sound recognition and analysis capabilities, accurately distinguishing and describing intricate layers of real-world sounds, ambient atmospheres, and dynamic audio details in film and media.


Я прогнал через модель звук из видео «Бурановские Бабушки»: В кругу друзей. (всего 223 просмотра — поднажмем!) Получилось достаточно хорошо (см. скрин). Модель даже понимает, к какой секунде относится каждая часть контента.

НО! Нельзя задать промпт, модель принимает только аудио. То есть нельзя, например, попросить оценить акцент вашей речи, — можно только получить полное общее описание.

Вопрос — в каком продукте такая модель могла бы понадобиться?

модель
😛 демка

BY Нейронный Кот




Share with your friend now:
tgoop.com/neural_cat/141

View MORE
Open in Telegram


Telegram News

Date: |

Click “Save” ; It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. How to create a business channel on Telegram? (Tutorial) The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said.
from us


Telegram Нейронный Кот
FROM American