LLM под капотом@llm_under

LLM под капотом

Бенчмарк GPT-5 моделей - первое место, и интересное про OSS модели

Базовая GPT-5 модель от OpenAI сразу попала на первое место. По сравнению с предыдушими моделями, у нее улучшились когнитивные способности и работа со сложным BI кодом. Просто работа с инженерными задачами и так уже 100% на моем бенчмарке. Опять надо усложнять.

gpt-5-mini работает примерно на уровне gpt-oss-120b, причем показатели сильно совпадают. Она заняла четвертое место.

gpt-5-nano заняла 15 место. Она на ~5% пунктов лучше, чем gpt-oss-20b.

Update: запустил gpt-oss-20b в режиме SO и цифры красиво совпали и тут.

У меня есть теория (из-за схожести показателей), что mini и nano - это какие-то свои reasoning режимы работы 120B и 20B. Но проверить это нельзя, т.к. OpenAI API долго думает свой ответ на задачи, а потом возвращает схему с пустыми слотами на размышления (это не reasoning traces, а именно типизированные поля в SGR схеме) Похоже, что не хотят светить свой CoT. У вас так же?

Если теория верна, то можно сделать такой вывод - для GPT-5-120B обычного Schema-Guided Reasoning достаточно, чтобы поднять его на уровень gpt-5-mini, но для модели послабее (20B) потребуется более развитая схема. Жалко, что пока не подсмотреть, как это делают в OpenAI.

Здорово, что вышли новые модели, которые обновили топы. И здорово, что OpenAI открыто поделились такими мощными моделями в Open Source. Осталось только научиться использовать 20B на полную катушку.

Ваш, @llm_under_hood 🤗

PS: Возможно, это подстегнет Anthropic и остальных начать тоже шевелиться, ибо новый GPT-5 очень хорош в кодинге. А у Anthropic до сих пор даже нет constrained decoding по схеме 😂

👍68🔥31❤23😁2🤝2🤣1

www.tgoop.com/llm_under_hood/622

17.2K viewsedited Aug 8 at 04:33

tgoop.com/llm_under_hood/622

Create: 2025-08-08
Last Update: 2025-10-13 01:58:14

BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/622

Telegram News

Бенчмарк GPT-5 моделей - первое место