LLM под капотом@llm_under_hood P.670

LLM_UNDER_HOOD Telegram 670

LLM под капотом

Бенчмарки Sonnet 4.5 и Deepseek - ничего особенного

В этом бенчмарке никаких особых прорывов, просто последовательное небольшое улучшение качества.

Anthropic Sonnet 4.5 заняла 24ое место, что на четыре пункта выше, чем Sonnet 4.0. Главное, она выше Opus 4.0, так что если вдруг выйдет Opus 4.5, то у него есть шансы подняться повыше (например, до уровня Sonnet-3.7 thinking)

Вообще, с Anthropic Sonnet у меня двойственные отношения. С одной стороны эта модель допускает достаточно глупые ошибки в сложном коде. Но, с другой стороны, если нужно сделать красивый интерфейс, то альтернатив ей я пока не вижу.

Deepseek V3.2 Experimental - 36ое место, на уровне deepseek-chat-v3-0324. Среди всех deepseek моделей (не r1) - это самое высокое. Кстати, terminus 3.1 будет пониже - на 45ом.

Ваш, @llm_under_hood 🤗

PS: про бенчмарки, включая их двухлетнюю историю, расписано тут

👍30👏10🤣4❤2🔥1🤝1

www.tgoop.com/llm_under_hood/670

9.91K viewsedited Sep 29 at 20:25

tgoop.com/llm_under_hood/670

Create: 2025-09-29
Last Update: 2025-10-08 20:26:02

Бенчмарки Sonnet 4.5 и Deepseek - ничего особенного

В этом бенчмарке никаких особых прорывов, просто последовательное небольшое улучшение качества.

Anthropic Sonnet 4.5 заняла 24ое место, что на четыре пункта выше, чем Sonnet 4.0. Главное, она выше Opus 4.0, так что если вдруг выйдет Opus 4.5, то у него есть шансы подняться повыше (например, до уровня Sonnet-3.7 thinking)

Вообще, с Anthropic Sonnet у меня двойственные отношения. С одной стороны эта модель допускает достаточно глупые ошибки в сложном коде. Но, с другой стороны, если нужно сделать красивый интерфейс, то альтернатив ей я пока не вижу.

Deepseek V3.2 Experimental - 36ое место, на уровне deepseek-chat-v3-0324. Среди всех deepseek моделей (не r1) - это самое высокое. Кстати, terminus 3.1 будет пониже - на 45ом.

Ваш, @llm_under_hood 🤗

PS: про бенчмарки, включая их двухлетнюю историю, расписано тут

BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/670

Open in Telegram

Telegram News

Date: 2025-10-08|

For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. 1What is Telegram Channels? Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013.
from us

Telegram LLM под капотом
FROM American