MACHINELEARNING_BOOKS Telegram 1220
NVFP4 - новый формат, который обучает 12B Mamba Transformer в 4 бита без потери точности

Исследователи представили NVFP4 - способ хранить числа в 4 битах вместо 8 или 16, почти без потери качества обучения.
Главная идея - умное блочное квантование:

- Все значения делятся на блоки по 16 чисел.
- Каждый блок имеет свой локальный scale (8 бит).
- Весь тензор получает глобальный scale (32 бита).

Так сохраняется высокая точность локальных значений и не теряются экстремально большие или маленькие числа.

📊 Результаты:
- Обучение 12B Mamba Transformer на 10T токенов в 4 битах показало точность, сопоставимую с FP8.
- Вычисления стали в 2–3 раза быстрее, а использование памяти снизилось на 50%.
- Потеря точности не превышает 1–1.5% по метрикам.
- MMLU Pro: 62.58% (NVFP4) против 62.62% (FP8).
- MBPP+: 55.91% против 59.11%.
- Градиенты используют стохастическое округление, чтобы избежать накопления ошибок.
- По сравнению с MXFP4, NVFP4 требует на 36% меньше данных для того же уровня потерь.

На поздних этапах обучения переход на BF16 почти устраняет разрыв в качестве.
NVFP4 уже поддерживается в Transformer Engine и на Blackwell GPU, включая все нужные режимы округления.

📄 Исследование: https://arxiv.org/abs/2509.25149
❤‍🔥63



tgoop.com/machinelearning_books/1220
Create:
Last Update:

NVFP4 - новый формат, который обучает 12B Mamba Transformer в 4 бита без потери точности

Исследователи представили NVFP4 - способ хранить числа в 4 битах вместо 8 или 16, почти без потери качества обучения.
Главная идея - умное блочное квантование:

- Все значения делятся на блоки по 16 чисел.
- Каждый блок имеет свой локальный scale (8 бит).
- Весь тензор получает глобальный scale (32 бита).

Так сохраняется высокая точность локальных значений и не теряются экстремально большие или маленькие числа.

📊 Результаты:
- Обучение 12B Mamba Transformer на 10T токенов в 4 битах показало точность, сопоставимую с FP8.
- Вычисления стали в 2–3 раза быстрее, а использование памяти снизилось на 50%.
- Потеря точности не превышает 1–1.5% по метрикам.
- MMLU Pro: 62.58% (NVFP4) против 62.62% (FP8).
- MBPP+: 55.91% против 59.11%.
- Градиенты используют стохастическое округление, чтобы избежать накопления ошибок.
- По сравнению с MXFP4, NVFP4 требует на 36% меньше данных для того же уровня потерь.

На поздних этапах обучения переход на BF16 почти устраняет разрыв в качестве.
NVFP4 уже поддерживается в Transformer Engine и на Blackwell GPU, включая все нужные режимы округления.

📄 Исследование: https://arxiv.org/abs/2509.25149

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1220

View MORE
Open in Telegram


Telegram News

Date: |

Activate up to 20 bots But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Write your hashtags in the language of your target audience. To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American