LLM под капотом@llm_under

LLM под капотом

SGR Benchmark моделей - OpenAI OSS модели хороши

Раньше я этот бенчмарк называл LLM Reasoning бенчмарк. Но по факту, тут у всех моделей работает Schema Guided Reasoning (SGR). В каждой задаче есть своя схема рассуждений, которая проводит модель по ключевым точкам и подводит к ответу. Если у модели есть Structured Outputs (SO), то следование схеме размышлений гарантировано, а если нет, то модель может и слететь с "рельсов". Когда такое происходит, ответ вылетает с ошибкой (см колонку Err).

Чем мощнее модель, тем лучше она может справиться с задачей следования схеме без constrained decoding.

На данный момент, именно так и обстоит ситуация с новыми моделями от OpenAI - GPT OSS 120B и 20B. Пока ни один из провайдеров (даже Fireworks) не поддерживает constrained decoding из-за новой архитектуры.

20B заняла 18е место, что стало лучшим результатом для модели такого размера. А вот 120B при использовании SGR попала сразу на 3 место, что просто невероятно 🥳

Говорят, что локальную модель 120B можно запускать со скоростью 1000 tokens/second на H100/B200 и 10-50 tokens/sec на Mac M4. А 5090 вывозит 20B со скоростью 250 tokens/second.

Спасибо OpenAI за классный подарок!

Ваш, @llm_under_hood 🤗

🔥62❤22👍14🤔5

www.tgoop.com/llm_under_hood/621

12.1K viewsedited Aug 7 at 13:52

tgoop.com/llm_under_hood/621

Create: 2025-08-07
Last Update: 2025-10-13 02:28:20

BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/621

Telegram News

SGR Benchmark моделей - OpenAI OSS модели хороши