tgoop.com/llm_under_hood/621
Last Update:
SGR Benchmark моделей - OpenAI OSS модели хороши
Раньше я этот бенчмарк называл LLM Reasoning бенчмарк. Но по факту, тут у всех моделей работает Schema Guided Reasoning (SGR). В каждой задаче есть своя схема рассуждений, которая проводит модель по ключевым точкам и подводит к ответу. Если у модели есть Structured Outputs (SO), то следование схеме размышлений гарантировано, а если нет, то модель может и слететь с "рельсов". Когда такое происходит, ответ вылетает с ошибкой (см колонку Err).
Чем мощнее модель, тем лучше она может справиться с задачей следования схеме без constrained decoding.
На данный момент, именно так и обстоит ситуация с новыми моделями от OpenAI - GPT OSS 120B и 20B. Пока ни один из провайдеров (даже Fireworks) не поддерживает constrained decoding из-за новой архитектуры.
20B заняла 18е место, что стало лучшим результатом для модели такого размера. А вот 120B при использовании SGR попала сразу на 3 место, что просто невероятно 🥳
Говорят, что локальную модель 120B можно запускать со скоростью 1000 tokens/second на H100/B200 и 10-50 tokens/sec на Mac M4. А 5090 вывозит 20B со скоростью 250 tokens/second.
Спасибо OpenAI за классный подарок!
Ваш, @llm_under_hood 🤗
BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/621