tgoop.com/machinelearnindigest/1313
Last Update:
Модель обрабатывает текст, изображения, аудио и видео в одной модели.
На бенчмарках выглядит так, как будто все модальности работают одинаково качественно.
- Первое место на 22 из 36 аудио- и мультимодальных бенчмарков
- Поддержка: 119 языков текста,
- Минимальная задержка — 211 мс
- Обработка аудио до 30 минут длиной
- ПОзволяет гибко настраивать через системные промпты
- Встроенный tool calling
Компания выложила три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner
👉 Попробовать можно здесь:
💬 Chat: https://chat.qwen.ai/?models=qwen3-omni-flash
💻 GitHub: https://github.com/QwenLM/Qwen3-Omni
🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
🤖 ModelScope: https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
🎬 Demo: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
@ai_machinelearning_big_data
#qwen #opensource #llm #ml

