LLM_UNDER_HOOD Telegram 636
Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1

Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.

Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):

- Fireworks
- Cerebras
- Groq

Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).

NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.

Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.

Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.

Ваш, @llm_under_hood 🤗
30👍20🔥11😁1



tgoop.com/llm_under_hood/636
Create:
Last Update:

Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1

Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.

Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):

- Fireworks
- Cerebras
- Groq

Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).

NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.

Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.

Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.

Ваш, @llm_under_hood 🤗

BY LLM под капотом




Share with your friend now:
tgoop.com/llm_under_hood/636

View MORE
Open in Telegram


Telegram News

Date: |

Polls bank east asia october 20 kowloon With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be:
from us


Telegram LLM под капотом
FROM American