Data Science by ODS.ai 🦜@opendatascience P.2543

Forwarded from AI.Insaf

Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison

Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3 почти не отличается по GPT-OSS. Тут детальнее про GPT-OSS). Например:
• Переход от ванильного Multi-Head Attention к Grouped-Query Attention (GQA), который появился ещё в 2023 году
• Attention Bias, который не использовали со времён GPT-2 и Attention Sinks обучаемый параметр для каждого блока внимания, которые применили в gpt-oss, хотя придумали его ещё в 2023 году
• NoPE (No Positional Encoding) — интересная идея, но её пока применили только в одной модели из обзора
• MoE (mixture of experts) - тоже известная больше года история

За деталями рекомендую к статье. Интересно на каких данных и как именно обучали модели. Но этой информацией зачастую делятся очень верхнеуровнево

👍4⚡1❤1

www.tgoop.com/opendatascience/2543

2.43K viewsAug 24 at 14:42

tgoop.com/opendatascience/2543

Create: 2025-08-24
Last Update: 2025-10-23 07:52:55

BY Data Science by ODS.ai 🦜

Share with your friend now:
tgoop.com/opendatascience/2543

Telegram News

Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison