MACHINELEARNING_INTERVIEW Telegram 2162
📢 NVIDIA представила Rubin CPX — GPU с 128 ГБ GDDR7, созданный специально для работы с длинными контекстами в AI-моделях.
Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз.

🧩 Суть новинки
Обычный инференс состоит из двух фаз:
- Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs).
- Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти.

Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее.

Возможности Rubin CPX
- 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса).
- 128 ГБ GDDR7 памяти.
- 3× ускоренное внимание (attention) по сравнению с GB300 NVL72.
- Встроенные блоки для кодирования/декодирования видео.
- Оптимизация под длинные последовательности и быструю подготовку токенов.

🖥️ Система Vera Rubin NVL144 CPX
- 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU.
- До 8 экзаFLOPs NVFP4.
- 100 ТБ памяти и 1,7 ПБ/с пропускной способности.
- В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72.
- Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша.

🔑 Главное
Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах.
Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле.

🚀 Вывод
Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM.
Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.
14🔥5👍3😱3🥰2



tgoop.com/machinelearning_interview/2162
Create:
Last Update:

📢 NVIDIA представила Rubin CPX — GPU с 128 ГБ GDDR7, созданный специально для работы с длинными контекстами в AI-моделях.
Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз.

🧩 Суть новинки
Обычный инференс состоит из двух фаз:
- Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs).
- Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти.

Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее.

Возможности Rubin CPX
- 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса).
- 128 ГБ GDDR7 памяти.
- 3× ускоренное внимание (attention) по сравнению с GB300 NVL72.
- Встроенные блоки для кодирования/декодирования видео.
- Оптимизация под длинные последовательности и быструю подготовку токенов.

🖥️ Система Vera Rubin NVL144 CPX
- 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU.
- До 8 экзаFLOPs NVFP4.
- 100 ТБ памяти и 1,7 ПБ/с пропускной способности.
- В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72.
- Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша.

🔑 Главное
Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах.
Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле.

🚀 Вывод
Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM.
Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.

BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/2162

View MORE
Open in Telegram


Telegram News

Date: |

“[The defendant] could not shift his criminal liability,” Hui said. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value.
from us


Telegram Machine learning Interview
FROM American