SCRIPTRUNAI_MEDIA Telegram 8784
Alibaba Qwen QwQ-32B: Новый шаг в развитии AI через масштабируемое обучение с подкреплением

Команда Qwen из Alibaba представила QwQ-32B — мощную AI-модель с 32 миллиардами параметров, которая по производительности конкурирует с гораздо более крупной DeepSeek-R1. Это подтверждает эффективность обучения с подкреплением (RL) для улучшения моделей ИИ.

🔹 Что делает QwQ-32B особенной?
Модель интегрирует агентные возможности, позволяя ей критически мыслить, использовать инструменты и адаптировать логику в зависимости от окружающих условий.

🔹 Как она показывает себя на тестах?
QwQ-32B продемонстрировала выдающиеся результаты в бенчмарках:

- AIME24 (математика): 79.5 баллов (почти на уровне DeepSeek-R1 с 79.8).
- LiveCodeBench (кодинг): 63.4, обгоняя большинство конкурентов.
- LiveBench (общие задачи): 73.1 — выше, чем у DeepSeek-R1 (71.6).
- IFEval (логика и интеллект): 83.9 — практически наравне с DeepSeek-R1 (83.3).
- BFCL (общие способности): 66.4 против 62.8 у DeepSeek-R1.

🔹 В чём секрет успеха?

Qwen использует многоэтапное обучение с подкреплением с разными стратегиями вознаграждений:
Первая фаза – усиление в задачах по математике и кодингу.
Вторая фаза – расширение возможностей, включая следование инструкциям и оптимизацию взаимодействия с человеком.

QwQ-32B уже доступна в открытом доступе на Hugging Face и ModelScope под лицензией Apache 2.0.

📌 В Alibaba считают, что комбинация мощных базовых моделей и масштабируемого RL — это путь к созданию ИИ следующего уровня и приближению к AGI.

Что думаете? Насколько близки мы к искусственному общему интеллекту?
🔥14👍1👏1



tgoop.com/scriptRunAI_media/8784
Create:
Last Update:

Alibaba Qwen QwQ-32B: Новый шаг в развитии AI через масштабируемое обучение с подкреплением

Команда Qwen из Alibaba представила QwQ-32B — мощную AI-модель с 32 миллиардами параметров, которая по производительности конкурирует с гораздо более крупной DeepSeek-R1. Это подтверждает эффективность обучения с подкреплением (RL) для улучшения моделей ИИ.

🔹 Что делает QwQ-32B особенной?
Модель интегрирует агентные возможности, позволяя ей критически мыслить, использовать инструменты и адаптировать логику в зависимости от окружающих условий.

🔹 Как она показывает себя на тестах?
QwQ-32B продемонстрировала выдающиеся результаты в бенчмарках:

- AIME24 (математика): 79.5 баллов (почти на уровне DeepSeek-R1 с 79.8).
- LiveCodeBench (кодинг): 63.4, обгоняя большинство конкурентов.
- LiveBench (общие задачи): 73.1 — выше, чем у DeepSeek-R1 (71.6).
- IFEval (логика и интеллект): 83.9 — практически наравне с DeepSeek-R1 (83.3).
- BFCL (общие способности): 66.4 против 62.8 у DeepSeek-R1.

🔹 В чём секрет успеха?

Qwen использует многоэтапное обучение с подкреплением с разными стратегиями вознаграждений:
Первая фаза – усиление в задачах по математике и кодингу.
Вторая фаза – расширение возможностей, включая следование инструкциям и оптимизацию взаимодействия с человеком.

QwQ-32B уже доступна в открытом доступе на Hugging Face и ModelScope под лицензией Apache 2.0.

📌 В Alibaba считают, что комбинация мощных базовых моделей и масштабируемого RL — это путь к созданию ИИ следующего уровня и приближению к AGI.

Что думаете? Насколько близки мы к искусственному общему интеллекту?

BY scriptRun AI медиа




Share with your friend now:
tgoop.com/scriptRunAI_media/8784

View MORE
Open in Telegram


Telegram News

Date: |

The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. The Channel name and bio must be no more than 255 characters long ‘Ban’ on Telegram A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram scriptRun AI медиа
FROM American