Notice: file_put_contents(): Write of 19159 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
Мир Робототехники@world_of_robotics P.4663
WORLD_OF_ROBOTICS Telegram 4663
💡Новая архитектура ИИ ускоряет работу с огромными объёмами данных

NVIDIA представила Helix Parallelism — уникальную архитектуру, позволяющую нейросетям в реальном времени обрабатывать гигантские массивы текста, словно энциклопедии, и при этом обслуживать в 32 раза больше пользователей без потери скорости.

Когда AI-инструменты берутся за сверхсложные задачи вроде анализа юридических архивов или поддержания долгосрочных диалогов с пользователями, основная проблема кроется в обработке контекста. Чем больше токенов — тем выше нагрузка на память видеокарт. Каждый новый ответ требует повторного доступа к KV-кэшу (истории переписки или текстов), а также перезагрузки весов Feed-Forward Network, что серьёзно тормозит отклик системы.

Helix «расщепляет» слои трансформера на две части — attention и FFN — и обрабатывает их независимо. Во время attention-фазы используется новый подход KV Parallelism (KVP), позволяющий распределить кэш между видеокартами без дублирования. Это снимает избыточную нагрузку с памяти. Затем система переключается в режим Tensor Parallelism, перераспределяя ресурсы для вычислений FFN. Всё это дополняется технологией HOP-B, которая перекрывает коммуникацию и вычисления между GPU, устраняя задержки.

Модель DeepSeek-R1 объёмом 671 миллиард параметров и контекстом на миллион токенов в тестах показала: Helix позволяет обслуживать в 32 раза больше запросов с той же задержкой, что и предыдущие архитектуры.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #Инновации #ИскусственныйИнтеллект #NVIDIA #Helix #BlackwellGPU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96🔥2



tgoop.com/world_of_robotics/4663
Create:
Last Update:

💡Новая архитектура ИИ ускоряет работу с огромными объёмами данных

NVIDIA представила Helix Parallelism — уникальную архитектуру, позволяющую нейросетям в реальном времени обрабатывать гигантские массивы текста, словно энциклопедии, и при этом обслуживать в 32 раза больше пользователей без потери скорости.

Когда AI-инструменты берутся за сверхсложные задачи вроде анализа юридических архивов или поддержания долгосрочных диалогов с пользователями, основная проблема кроется в обработке контекста. Чем больше токенов — тем выше нагрузка на память видеокарт. Каждый новый ответ требует повторного доступа к KV-кэшу (истории переписки или текстов), а также перезагрузки весов Feed-Forward Network, что серьёзно тормозит отклик системы.

Helix «расщепляет» слои трансформера на две части — attention и FFN — и обрабатывает их независимо. Во время attention-фазы используется новый подход KV Parallelism (KVP), позволяющий распределить кэш между видеокартами без дублирования. Это снимает избыточную нагрузку с памяти. Затем система переключается в режим Tensor Parallelism, перераспределяя ресурсы для вычислений FFN. Всё это дополняется технологией HOP-B, которая перекрывает коммуникацию и вычисления между GPU, устраняя задержки.

Модель DeepSeek-R1 объёмом 671 миллиард параметров и контекстом на миллион токенов в тестах показала: Helix позволяет обслуживать в 32 раза больше запросов с той же задержкой, что и предыдущие архитектуры.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #Инновации #ИскусственныйИнтеллект #NVIDIA #Helix #BlackwellGPU

BY Мир Робототехники




Share with your friend now:
tgoop.com/world_of_robotics/4663

View MORE
Open in Telegram


Telegram News

Date: |

During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Users are more open to new information on workdays rather than weekends. There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. ZDNET RECOMMENDS Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day.
from us


Telegram Мир Робототехники
FROM American