⚡ PyTorch представил **ZenFlow** — новый движок для обучения больших языковых моделей без «простоев» GPU.
В чём проблема? Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз.
Как решает ZenFlow: - 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU. - ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать. - 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload). - 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает.
Итог: ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества.
⚡ PyTorch представил **ZenFlow** — новый движок для обучения больших языковых моделей без «простоев» GPU.
В чём проблема? Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз.
Как решает ZenFlow: - 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU. - ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать. - 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload). - 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает.
Итог: ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества.
The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. More>> In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us