tgoop.com/scriptRunAI_media/8784
Last Update:
Alibaba Qwen QwQ-32B: Новый шаг в развитии AI через масштабируемое обучение с подкреплением
Команда Qwen из Alibaba представила QwQ-32B — мощную AI-модель с 32 миллиардами параметров, которая по производительности конкурирует с гораздо более крупной DeepSeek-R1. Это подтверждает эффективность обучения с подкреплением (RL) для улучшения моделей ИИ.
🔹 Что делает QwQ-32B особенной?
Модель интегрирует агентные возможности, позволяя ей критически мыслить, использовать инструменты и адаптировать логику в зависимости от окружающих условий.
🔹 Как она показывает себя на тестах?
QwQ-32B продемонстрировала выдающиеся результаты в бенчмарках:
- AIME24 (математика): 79.5 баллов (почти на уровне DeepSeek-R1 с 79.8).
- LiveCodeBench (кодинг): 63.4, обгоняя большинство конкурентов.
- LiveBench (общие задачи): 73.1 — выше, чем у DeepSeek-R1 (71.6).
- IFEval (логика и интеллект): 83.9 — практически наравне с DeepSeek-R1 (83.3).
- BFCL (общие способности): 66.4 против 62.8 у DeepSeek-R1.
🔹 В чём секрет успеха?
Qwen использует многоэтапное обучение с подкреплением с разными стратегиями вознаграждений:
✅ Первая фаза – усиление в задачах по математике и кодингу.
✅ Вторая фаза – расширение возможностей, включая следование инструкциям и оптимизацию взаимодействия с человеком.
QwQ-32B уже доступна в открытом доступе на Hugging Face и ModelScope под лицензией Apache 2.0.
📌 В Alibaba считают, что комбинация мощных базовых моделей и масштабируемого RL — это путь к созданию ИИ следующего уровня и приближению к AGI.
Что думаете? Насколько близки мы к искусственному общему интеллекту?
BY scriptRun AI медиа

Share with your friend now:
tgoop.com/scriptRunAI_media/8784
