AI_MACHINELEARNING_BIG_DATA Telegram 8541
🖥 Nvidia меняет стратегию и уходит от универсальных GPU.

Теперь каждый чип будет заточен под конкретный этап LLM-инференса.

Инференс делится на два шага:
- Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память.
- Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше.

Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно:
- при Prefill простаивает память,
- при Decode — простаивают вычислительные блоки.

🟢Новый подход Nvidia — разные GPU под разные задачи:

- Rubin CPX - оптимизирован для Prefill
• 20 PFLOPS вычислений
• 128 GB GDDR7
• 2 TB/s пропускная способность

- R200 — GPU под Decode
• 288 GB HBM4
• 20.5 TB/s памяти

📆 Планы компании:
- **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти.
- 2026–2027 - Rubin разделится:
• VR200 — для Decode (максимум HBM).
• CPX — для Prefill (много вычислений, дешёвая память).
- 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E.

Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса.

#Nvidia #GPU #AI #Blackwell #Rubin #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11940🔥15🤔7🤬3



tgoop.com/ai_machinelearning_big_data/8541
Create:
Last Update:

🖥 Nvidia меняет стратегию и уходит от универсальных GPU.

Теперь каждый чип будет заточен под конкретный этап LLM-инференса.

Инференс делится на два шага:
- Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память.
- Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше.

Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно:
- при Prefill простаивает память,
- при Decode — простаивают вычислительные блоки.

🟢Новый подход Nvidia — разные GPU под разные задачи:

- Rubin CPX - оптимизирован для Prefill
• 20 PFLOPS вычислений
• 128 GB GDDR7
• 2 TB/s пропускная способность

- R200 — GPU под Decode
• 288 GB HBM4
• 20.5 TB/s памяти

📆 Планы компании:
- **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти.
- 2026–2027 - Rubin разделится:
• VR200 — для Decode (максимум HBM).
• CPX — для Prefill (много вычислений, дешёвая память).
- 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E.

Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса.

#Nvidia #GPU #AI #Blackwell #Rubin #LLM

BY Machinelearning




Share with your friend now:
tgoop.com/ai_machinelearning_big_data/8541

View MORE
Open in Telegram


Telegram News

Date: |

The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. 2How to set up a Telegram channel? (A step-by-step tutorial) In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members.
from us


Telegram Machinelearning
FROM American