tgoop.com/llm_under_hood/647
Last Update:
Новые бенчмарки LLM на бизнес задачах в SGR режиме
(1) gpt-5-chat-latest - это урезанный снапшот быстрой модели, которая работает под капотом в ChatGPT. У нее нет многих фич, даже StructuredOutputs, но текущая версия заняла 9 место.
(2) Еще из новых бенчмарков моделей, которые ранее были бы впечатляющими, но до уровня gpt-oss/qwen3-32b не дотягивают:
- qwen3-235b-a22b-2507 - 25 место
- deepseek-chat-v3.1 - 31 место
- qwen3-30b-a3b-thinking-2507 - 32 место
(3) пока StructuredOutputs не починили нигде для gpt-oss моделей - все еще расхлебывают последствия Harmony Response format (ollama ticket, openai ticket, vllm ticket). Поэтому все еще ждем возможности запустить локально эти малотребовательные к железу gpt-oss (в идеале еще и отключив reasoning).
Про бенчмарки подробнее написано тут.
Ваш, @llm_under_hood 🤗
BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/647