tgoop.com/llm_under_hood/665
Last Update:
Qwen3 VL Thinking - TOP3 в бенчмарке!
Alibaba Cloud выкатили на днях новые Qwn модели. Я слышал, что они неплохи, но это говорят нынче про каждую модель.
(1) Qwen3 Max Instruct
- самая крупная закрытая Qwen модель на 1T+ params - заняла 17 место. Это выше gpt-5-nano
, но ниже, чем o1-2024-12-17
(2) Qwen3-VL-235B-A22B
- самая крупная мультимодальная открытая модель, которая вышла в двух форматах - Instruct (карточка | веса) и Thinking (карточка | веса). Qwen3-VL-235B-A22B-Instruct
заняла 19ое место, что немного ниже Qwen3 Max Instruct. Это примерно уровень gpt-5-nano
или deepseek-r1
но модель при этом работает с картинками!
(3) Qwen3-VL-235B-A22B-Thinking
аналогична Instruct, но умеет думать и заняла третье место! Это самое высокое место, которое когда-либо занимала модель с открытыми весами в моем бенчмарке!
Понятно, что модели весом в пол-терабайта мало кто будет запускать на практике - не стоит оно того. Куда эффективнее взять gpt-oss-120B с 7го места или Qwen3-32B с 17 места.
Но сам факт попадания открытой мультимодальной модели в TOP3 - это повод для радости от прогресса. Теперь будем ждать таких же моделей, но в более практичном формате.
Ваш, @llm_under_hood 🤗
PS: про бенчмарки, включая их двухлетнюю историю, расписано тут
BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/665