tgoop.com/machinelearning_ru/3080
Last Update:
🧠 На AI Journey представили новое поколение открытых моделей распознавания речи — GigaAM-v3, ставшее самым крупным обновлением стека ASR от Сбера.
Главное изменение — масштаб предобучения. Вместо стандартных 50k часов корпус расширили до 700k часов, а все данные прошли нормализацию и восстановление пунктуации через GigaChat Max Audio. Это позволило значительно улучшить понимание сложной, живой, эмоциональной речи.
Линейка включает CTC- и RNNT-модели, а также e2e-версии, которые добавляют пунктуацию прямо на выходе, что делает текст читаемым без постобработки.
По ключевым датасетам (OpenSTT, Golos, CV) новый стек сохраняет паритет, но на сложных доменах улучшения достигают 30–40%. Модель уже доступна разработчикам — исходники опубликованы в полном объёме.
BY Машинное обучение RU

Share with your friend now:
tgoop.com/machinelearning_ru/3080
