NEURAL Telegram 10155
Forwarded from Machinelearning
🖥 Nvidia меняет стратегию и уходит от универсальных GPU.

Теперь каждый чип будет заточен под конкретный этап LLM-инференса.

Инференс делится на два шага:
- Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память.
- Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше.

Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно:
- при Prefill простаивает память,
- при Decode — простаивают вычислительные блоки.

🟢Новый подход Nvidia — разные GPU под разные задачи:

- Rubin CPX - оптимизирован для Prefill
• 20 PFLOPS вычислений
• 128 GB GDDR7
• 2 TB/s пропускная способность

- R200 — GPU под Decode
• 288 GB HBM4
• 20.5 TB/s памяти

📆 Планы компании:
- **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти.
- 2026–2027 - Rubin разделится:
• VR200 — для Decode (максимум HBM).
• CPX — для Prefill (много вычислений, дешёвая память).
- 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E.

Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса.

#Nvidia #GPU #AI #Blackwell #Rubin #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/neural/10155
Create:
Last Update:

🖥 Nvidia меняет стратегию и уходит от универсальных GPU.

Теперь каждый чип будет заточен под конкретный этап LLM-инференса.

Инференс делится на два шага:
- Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память.
- Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше.

Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно:
- при Prefill простаивает память,
- при Decode — простаивают вычислительные блоки.

🟢Новый подход Nvidia — разные GPU под разные задачи:

- Rubin CPX - оптимизирован для Prefill
• 20 PFLOPS вычислений
• 128 GB GDDR7
• 2 TB/s пропускная способность

- R200 — GPU под Decode
• 288 GB HBM4
• 20.5 TB/s памяти

📆 Планы компании:
- **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти.
- 2026–2027 - Rubin разделится:
• VR200 — для Decode (максимум HBM).
• CPX — для Prefill (много вычислений, дешёвая память).
- 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E.

Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса.

#Nvidia #GPU #AI #Blackwell #Rubin #LLM

BY Neural Networks | Нейронные сети




Share with your friend now:
tgoop.com/neural/10155

View MORE
Open in Telegram


Telegram News

Date: |

On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. Each account can create up to 10 public channels Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot.
from us


Telegram Neural Networks | Нейронные сети
FROM American