Мир Робототехники@world_of

💡

Новая архитектура ИИ ускоряет работу с огромными объёмами данных

NVIDIA представила Helix Parallelism — уникальную архитектуру, позволяющую нейросетям в реальном времени обрабатывать гигантские массивы текста, словно энциклопедии, и при этом обслуживать в 32 раза больше пользователей без потери скорости.

Когда AI-инструменты берутся за сверхсложные задачи вроде анализа юридических архивов или поддержания долгосрочных диалогов с пользователями, основная проблема кроется в обработке контекста. Чем больше токенов — тем выше нагрузка на память видеокарт. Каждый новый ответ требует повторного доступа к KV-кэшу (истории переписки или текстов), а также перезагрузки весов Feed-Forward Network, что серьёзно тормозит отклик системы.

Helix «расщепляет» слои трансформера на две части — attention и FFN — и обрабатывает их независимо. Во время attention-фазы используется новый подход KV Parallelism (KVP), позволяющий распределить кэш между видеокартами без дублирования. Это снимает избыточную нагрузку с памяти. Затем система переключается в режим Tensor Parallelism, перераспределяя ресурсы для вычислений FFN. Всё это дополняется технологией HOP-B, которая перекрывает коммуникацию и вычисления между GPU, устраняя задержки.

Модель DeepSeek-R1 объёмом 671 миллиард параметров и контекстом на миллион токенов в тестах показала: Helix позволяет обслуживать в 32 раза больше запросов с той же задержкой, что и предыдущие архитектуры.

🤖

«МИР Робототехники»

#МирРобототехники #ИИ #Инновации #ИскусственныйИнтеллект #NVIDIA #Helix #BlackwellGPU

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤6🔥2

www.tgoop.com/world_of_robotics/4663

569 viewsJul 13 at 10:36

tgoop.com/world_of_robotics/4663

Create: 2025-07-13
Last Update: 2025-07-29 20:09:04

💡Новая архитектура ИИ ускоряет работу с огромными объёмами данных

NVIDIA представила Helix Parallelism — уникальную архитектуру, позволяющую нейросетям в реальном времени обрабатывать гигантские массивы текста, словно энциклопедии, и при этом обслуживать в 32 раза больше пользователей без потери скорости.

Когда AI-инструменты берутся за сверхсложные задачи вроде анализа юридических архивов или поддержания долгосрочных диалогов с пользователями, основная проблема кроется в обработке контекста. Чем больше токенов — тем выше нагрузка на память видеокарт. Каждый новый ответ требует повторного доступа к KV-кэшу (истории переписки или текстов), а также перезагрузки весов Feed-Forward Network, что серьёзно тормозит отклик системы.

Helix «расщепляет» слои трансформера на две части — attention и FFN — и обрабатывает их независимо. Во время attention-фазы используется новый подход KV Parallelism (KVP), позволяющий распределить кэш между видеокартами без дублирования. Это снимает избыточную нагрузку с памяти. Затем система переключается в режим Tensor Parallelism, перераспределяя ресурсы для вычислений FFN. Всё это дополняется технологией HOP-B, которая перекрывает коммуникацию и вычисления между GPU, устраняя задержки.

Модель DeepSeek-R1 объёмом 671 миллиард параметров и контекстом на миллион токенов в тестах показала: Helix позволяет обслуживать в 32 раза больше запросов с той же задержкой, что и предыдущие архитектуры.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #Инновации #ИскусственныйИнтеллект #NVIDIA #Helix #BlackwellGPU

Telegram News

💡Новая архитектура ИИ ускоряет работу с огромными объёмами данных