LLM_UNDER_HOOD Telegram 663
Бенчмарки новых LLM на бизнес задачах.

(1) x-ai/grok-4-fast - 18 место, что очень хорошо. Особенно впечатляет то, что он решил code задачки на 100% c хорошим упором в reasoning 63%. Compliance у него слабее всего, а business intelligence задачи - средненько.

(2) qwen/qwen3-next-80b-a3b-thinking - 27 место
(3) qwen/qwen3-next-80b-a3b-instruct - 41 место

У обоих моделей достаточно сильный code и compliance.

(4) Недавно вышедший alibaba/tongyi-deepresearch-30b-a3b внезапно занял - 28 место, что очень достойно для 30B модели, которая за проход активирует только 3B параметров. Она почти идеально справилась с code задачками

(5) qwen/qwen-plus-2025-07-28 - 34 место, а qwen/qwen3-coder-plus - 40 место

В принципе, все эти результаты довольно неплохи, но до qwen/qwen3-32b (12 место) и openai/gpt-oss-20b (20 место) не дотягивает.

А если посмотреть с другой стороны… помнит кто-нибудь такие модели как gpt-4o, Mistral или llama? Когда-то я писал про них, что это прорывные модели. А теперь более легкие и умные модели - уже не впечатляют. Вот так - потихоньку - и двигается прогресс.

Ваш, @llm_under_hood 🤗

PS: про бенчмарки, включая их двухлетнюю историю, расписано тут
🔥57👍267🤯2



tgoop.com/llm_under_hood/663
Create:
Last Update:

Бенчмарки новых LLM на бизнес задачах.

(1) x-ai/grok-4-fast - 18 место, что очень хорошо. Особенно впечатляет то, что он решил code задачки на 100% c хорошим упором в reasoning 63%. Compliance у него слабее всего, а business intelligence задачи - средненько.

(2) qwen/qwen3-next-80b-a3b-thinking - 27 место
(3) qwen/qwen3-next-80b-a3b-instruct - 41 место

У обоих моделей достаточно сильный code и compliance.

(4) Недавно вышедший alibaba/tongyi-deepresearch-30b-a3b внезапно занял - 28 место, что очень достойно для 30B модели, которая за проход активирует только 3B параметров. Она почти идеально справилась с code задачками

(5) qwen/qwen-plus-2025-07-28 - 34 место, а qwen/qwen3-coder-plus - 40 место

В принципе, все эти результаты довольно неплохи, но до qwen/qwen3-32b (12 место) и openai/gpt-oss-20b (20 место) не дотягивает.

А если посмотреть с другой стороны… помнит кто-нибудь такие модели как gpt-4o, Mistral или llama? Когда-то я писал про них, что это прорывные модели. А теперь более легкие и умные модели - уже не впечатляют. Вот так - потихоньку - и двигается прогресс.

Ваш, @llm_under_hood 🤗

PS: про бенчмарки, включая их двухлетнюю историю, расписано тут

BY LLM под капотом




Share with your friend now:
tgoop.com/llm_under_hood/663

View MORE
Open in Telegram


Telegram News

Date: |

bank east asia october 20 kowloon As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group.
from us


Telegram LLM под капотом
FROM American