OPENDATASCIENCE Telegram 2646
Forwarded from Machinelearning
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.

📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом:

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.

⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.

Mamba-3 - это не просто ускоренная альтернатива Transformers.

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥65😱1🦄1



tgoop.com/opendatascience/2646
Create:
Last Update:

⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.

📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом:

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.

⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.

Mamba-3 - это не просто ускоренная альтернатива Transformers.

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3 #llm,#architecture #ai

BY Data Science by ODS.ai 🦜







Share with your friend now:
tgoop.com/opendatascience/2646

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? Telegram channels fall into two types: Write your hashtags in the language of your target audience. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them.
from us


Telegram Data Science by ODS.ai 🦜
FROM American