AIHAPPENS Telegram 305
Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.

(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)

Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:

Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.

Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.

Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).

В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.

Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.

Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.

@aihappens
❤‍🔥40👍19127🔥6😢1



tgoop.com/aihappens/305
Create:
Last Update:

Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.

(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)

Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:

Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.

Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.

Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).

В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.

Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.

Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.

@aihappens

BY AI Happens




Share with your friend now:
tgoop.com/aihappens/305

View MORE
Open in Telegram


Telegram News

Date: |

ZDNET RECOMMENDS SUCK Channel Telegram With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. How to Create a Private or Public Channel on Telegram?
from us


Telegram AI Happens
FROM American