BIGDATAI Telegram 1483
🚀 NVIDIA ускорила LLM в 53 раза 🤯

Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.

📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.

Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.

Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.

Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.

Результат - Jet-Nemotron:

- 2 885 токенов/с

- 47× меньше KV-кеша (всего 154 MB)

- Топовая точность при космической скорости

🔑 Почему это важно:

Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.

Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.

Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.

🟠Github
🟠Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥5👍3



tgoop.com/bigdatai/1483
Create:
Last Update:

🚀 NVIDIA ускорила LLM в 53 раза 🤯

Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.

📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.

Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.

Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.

Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.

Результат - Jet-Nemotron:

- 2 885 токенов/с

- 47× меньше KV-кеша (всего 154 MB)

- Топовая точность при космической скорости

🔑 Почему это важно:

Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.

Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.

Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.

🟠Github
🟠Статья

@data_analysis_ml

BY Big Data AI









Share with your friend now:
tgoop.com/bigdatai/1483

View MORE
Open in Telegram


Telegram News

Date: |

Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. The best encrypted messaging apps As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information.
from us


Telegram Big Data AI
FROM American