BIGDATAI Telegram 1488
🚀 NVIDIA ускорила LLM в 53 раза 🤯

Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.

📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.

Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.

Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.

Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.

Результат - Jet-Nemotron:

- 2 885 токенов/с

- 47× меньше KV-кеша (всего 154 MB)

- Топовая точность при космической скорости

🔑 Почему это важно:

Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.

Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.

Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.

🟠Github
🟠Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥5👍3



tgoop.com/bigdatai/1488
Create:
Last Update:

🚀 NVIDIA ускорила LLM в 53 раза 🤯

Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.

📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.

Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.

Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.

Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.

Результат - Jet-Nemotron:

- 2 885 токенов/с

- 47× меньше KV-кеша (всего 154 MB)

- Топовая точность при космической скорости

🔑 Почему это важно:

Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.

Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.

Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.

🟠Github
🟠Статья

@data_analysis_ml

BY Big Data AI









Share with your friend now:
tgoop.com/bigdatai/1488

View MORE
Open in Telegram


Telegram News

Date: |

Read now How to Create a Private or Public Channel on Telegram? The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots.
from us


Telegram Big Data AI
FROM American