tgoop.com/llm_under_hood/663
Last Update:
Бенчмарки новых LLM на бизнес задачах.
(1) x-ai/grok-4-fast
- 18 место, что очень хорошо. Особенно впечатляет то, что он решил code задачки на 100% c хорошим упором в reasoning 63%. Compliance у него слабее всего, а business intelligence задачи - средненько.
(2) qwen/qwen3-next-80b-a3b-thinking
- 27 место
(3) qwen/qwen3-next-80b-a3b-instruct
- 41 место
У обоих моделей достаточно сильный code и compliance.
(4) Недавно вышедший alibaba/tongyi-deepresearch-30b-a3b
внезапно занял - 28 место, что очень достойно для 30B модели, которая за проход активирует только 3B параметров. Она почти идеально справилась с code задачками
(5) qwen/qwen-plus-2025-07-28
- 34 место, а qwen/qwen3-coder-plus
- 40 место
В принципе, все эти результаты довольно неплохи, но до qwen/qwen3-32b
(12 место) и openai/gpt-oss-20b
(20 место) не дотягивает.
А если посмотреть с другой стороны… помнит кто-нибудь такие модели как gpt-4o, Mistral или llama? Когда-то я писал про них, что это прорывные модели. А теперь более легкие и умные модели - уже не впечатляют. Вот так - потихоньку - и двигается прогресс.
Ваш, @llm_under_hood 🤗
PS: про бенчмарки, включая их двухлетнюю историю, расписано тут
BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/663