tgoop.com/llm_under_hood/670
Last Update:
Бенчмарки Sonnet 4.5 и Deepseek - ничего особенного
В этом бенчмарке никаких особых прорывов, просто последовательное небольшое улучшение качества.Anthropic Sonnet 4.5
заняла 24ое место, что на четыре пункта выше, чем Sonnet 4.0. Главное, она выше Opus 4.0, так что если вдруг выйдет Opus 4.5, то у него есть шансы подняться повыше (например, до уровня Sonnet-3.7 thinking)
Вообще, с Anthropic Sonnet у меня двойственные отношения. С одной стороны эта модель допускает достаточно глупые ошибки в сложном коде. Но, с другой стороны, если нужно сделать красивый интерфейс, то альтернатив ей я пока не вижу.Deepseek V3.2 Experimental
- 36ое место, на уровне deepseek-chat-v3-0324
. Среди всех deepseek моделей (не r1) - это самое высокое. Кстати, terminus 3.1 будет пониже - на 45ом.
Ваш, @llm_under_hood 🤗
PS: про бенчмарки, включая их двухлетнюю историю, расписано тут
BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/670