Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/machinelearnindigest/-1354-1355-1356-1357-1354-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Машинное обучение digest@machinelearnindigest P.1355

MACHINELEARNINDIGEST Telegram 1355

Машинное обучение digest

AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.

Более высокая эффективность, в сравнении с AI21 - 2–5× улучшение в производительности по сравнению с конкурентами за счёт меньшего KV-кэша и гибридной архитектуры.

Секрет в архитектуре:
🔹 сочетание Transformer attention и Mamba state-space слоёв.
🔹 Mamba-часть эффективно обрабатывает длинные последовательности без тяжёлых attention-кэшей,
🔹 а Transformer-слои сохраняют способность к сложным рассуждениям.

Результат, модель кушает меньше памяти, выдает высокую скорость и плавно работает даже на ноутбуках, GPU и мобильных устройствах.

📏 Контекст: до 256K токенов.
⚡ Скорость: около 40 токенов/сек даже на длинных контекстах, тогда как другие модели резко замедляются.

На графике “интеллект против скорости” Jamba 3B опережает Gemma 3 4B, Llama 3.2 3B и Granite 4.0 Micro, демонстрируя высший интеллект и более быструю генерацию.

🟢

Подробнее: huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

@ai_machinelearning_big_data

#AI #LLM #Jamba3B #AI21 #Mamba #Transformer #DeepLearning

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/machinelearnindigest/1355

11 viewsOct 9 at 12:07

tgoop.com/machinelearnindigest/1355

Create: 2025-10-09
Last Update: 2025-11-19 06:48:30

AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.

Более высокая эффективность, в сравнении с AI21 - 2–5× улучшение в производительности по сравнению с конкурентами за счёт меньшего KV-кэша и гибридной архитектуры.

Секрет в архитектуре:
🔹 сочетание Transformer attention и Mamba state-space слоёв.
🔹 Mamba-часть эффективно обрабатывает длинные последовательности без тяжёлых attention-кэшей,
🔹 а Transformer-слои сохраняют способность к сложным рассуждениям.

Результат, модель кушает меньше памяти, выдает высокую скорость и плавно работает даже на ноутбуках, GPU и мобильных устройствах.

📏 Контекст: до 256K токенов.
⚡ Скорость: около 40 токенов/сек даже на длинных контекстах, тогда как другие модели резко замедляются.

На графике “интеллект против скорости” Jamba 3B опережает Gemma 3 4B, Llama 3.2 3B и Granite 4.0 Micro, демонстрируя высший интеллект и более быструю генерацию.

🟢Подробнее: huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

@ai_machinelearning_big_data

#AI #LLM #Jamba3B #AI21 #Mamba #Transformer #DeepLearning

BY Машинное обучение digest

Share with your friend now:
tgoop.com/machinelearnindigest/1355

Open in Telegram

Telegram News

Date: 2025-11-19|

The best encrypted messaging apps fire bomb molotov November 18 Dylan Hollingsworth yau ma tei How to Create a Private or Public Channel on Telegram? End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Some Telegram Channels content management tips
from us

Warning: filemtime(): stat failed for aCache/aDaily/post/machinelearnindigest/-1354-1355-1356-1357-1354- in /var/www/tgoop/post.php on line 323

Warning: filemtime(): stat failed for aCache/aDaily/post/machinelearnindigest/-1354-1355-1356-1357-1354- in /var/www/tgoop/post.php on line 324

AI21 представила Jamba 3B - компактную модель

Машинное обучение digest TG
web: 1355
Машинное обучение digest.Telegram web
Машинное обучение digest Telegram TG Channel
Telegram Updated: 1970-01-01 00:00:00

Telegram Машинное обучение digest
FROM American