OPENDATASCIENCE Telegram 2543
Forwarded from AI.Insaf
Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison

Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3 почти не отличается по GPT-OSS. Тут детальнее про GPT-OSS). Например:
• Переход от ванильного Multi-Head Attention к Grouped-Query Attention (GQA), который появился ещё в 2023 году
• Attention Bias, который не использовали со времён GPT-2 и Attention Sinks обучаемый параметр для каждого блока внимания, которые применили в gpt-oss, хотя придумали его ещё в 2023 году
• NoPE (No Positional Encoding) — интересная идея, но её пока применили только в одной модели из обзора
• MoE (mixture of experts) - тоже известная больше года история

За деталями рекомендую к статье. Интересно на каких данных и как именно обучали модели. Но этой информацией зачастую делятся очень верхнеуровнево
👍411



tgoop.com/opendatascience/2543
Create:
Last Update:

Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison

Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3 почти не отличается по GPT-OSS. Тут детальнее про GPT-OSS). Например:
• Переход от ванильного Multi-Head Attention к Grouped-Query Attention (GQA), который появился ещё в 2023 году
• Attention Bias, который не использовали со времён GPT-2 и Attention Sinks обучаемый параметр для каждого блока внимания, которые применили в gpt-oss, хотя придумали его ещё в 2023 году
• NoPE (No Positional Encoding) — интересная идея, но её пока применили только в одной модели из обзора
• MoE (mixture of experts) - тоже известная больше года история

За деталями рекомендую к статье. Интересно на каких данных и как именно обучали модели. Но этой информацией зачастую делятся очень верхнеуровнево

BY Data Science by ODS.ai 🦜




Share with your friend now:
tgoop.com/opendatascience/2543

View MORE
Open in Telegram


Telegram News

Date: |

During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Step-by-step tutorial on desktop: Invite up to 200 users from your contacts to join your channel Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Informative
from us


Telegram Data Science by ODS.ai 🦜
FROM American