QUANT_PRUNE_DISTILL Telegram 485
Microscaling Data Formats for Deep Learning (+NVFP)
[Статья][Код]

Введение

С ростом размера LLM, затрат на обучение и инференс все более актуальным становится вопрос эффективных вычислений. Опыт показывает (BitNet, QuEST), что вполне реально гонять обучение с низкобитными весами и активациями, и при хорошей реализации даже оптимально по флопсам. Однако, вычисления в низкой битности требуют аппаратной поддержки.

В поколении Blackwell зеленые 💚 завезли аппаратную поддержку новых малобитных типов чисел с плавающей точкой с плавающей точкой - NVFP4/MXFP{4,6,8}.
🔥2



tgoop.com/quant_prune_distill/485
Create:
Last Update:

Microscaling Data Formats for Deep Learning (+NVFP)
[Статья][Код]

Введение

С ростом размера LLM, затрат на обучение и инференс все более актуальным становится вопрос эффективных вычислений. Опыт показывает (BitNet, QuEST), что вполне реально гонять обучение с низкобитными весами и активациями, и при хорошей реализации даже оптимально по флопсам. Однако, вычисления в низкой битности требуют аппаратной поддержки.

В поколении Blackwell зеленые 💚 завезли аппаратную поддержку новых малобитных типов чисел с плавающей точкой с плавающей точкой - NVFP4/MXFP{4,6,8}.

BY КПД




Share with your friend now:
tgoop.com/quant_prune_distill/485

View MORE
Open in Telegram


Telegram News

Date: |

The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. 3How to create a Telegram channel? To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. How to create a business channel on Telegram? (Tutorial)
from us


Telegram КПД
FROM American