CPU_DESIGN Telegram 317
70% Size, 100% Accuracy:
Lossless LLM Compression for Efficient GPU
Inference via Dynamic-Length Float


Новый день - новый формат флота. В этот раз с динамической экспонентой.

В статье представлен метод Dynamic-Length Float (DFloat11) — фреймворк сжатия весов больших языковых моделей без потери точности, который позволяет снизить объём памяти и при этом сохраняет совместимость с эффективным выполнением инференса на GPU.
Эксперименты на популярных моделях, таких как Llama-3.1, Qwen-2.5 и Gemma-3, подтвердили эффективность подхода, который значительно повышает пропускную способность и окно контекста.

Что-то похоже было у Tesla Dojo Technology - Configurable Float8 (CFloat8) пару лет назад.

CFloat:
Делит фиксированные 8 бит между мантиссой и экспонентой, а также использует настраиваемый сдвиг экспоненты, но не использует энтропийное кодирование.

DFloat11:
Сжимает данные за счёт энтропийного кодирования экспоненты, что позволяет уменьшить общий размер хранения без потери точности - не изменяет ширину поля мантиссы.

https://arxiv.org/pdf/2504.11651

p.s. А мой любимый Posit всё так и не находит и скорее всего не найдет применения в современных задачах для AI/ML👋
Please open Telegram to view this post
VIEW IN TELEGRAM
👀13👍6😁2



tgoop.com/cpu_design/317
Create:
Last Update:

70% Size, 100% Accuracy:
Lossless LLM Compression for Efficient GPU
Inference via Dynamic-Length Float


Новый день - новый формат флота. В этот раз с динамической экспонентой.

В статье представлен метод Dynamic-Length Float (DFloat11) — фреймворк сжатия весов больших языковых моделей без потери точности, который позволяет снизить объём памяти и при этом сохраняет совместимость с эффективным выполнением инференса на GPU.
Эксперименты на популярных моделях, таких как Llama-3.1, Qwen-2.5 и Gemma-3, подтвердили эффективность подхода, который значительно повышает пропускную способность и окно контекста.

Что-то похоже было у Tesla Dojo Technology - Configurable Float8 (CFloat8) пару лет назад.

CFloat:
Делит фиксированные 8 бит между мантиссой и экспонентой, а также использует настраиваемый сдвиг экспоненты, но не использует энтропийное кодирование.

DFloat11:
Сжимает данные за счёт энтропийного кодирования экспоненты, что позволяет уменьшить общий размер хранения без потери точности - не изменяет ширину поля мантиссы.

https://arxiv.org/pdf/2504.11651

p.s. А мой любимый Posit всё так и не находит и скорее всего не найдет применения в современных задачах для AI/ML👋

BY Записки CPU designer'a




Share with your friend now:
tgoop.com/cpu_design/317

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Some Telegram Channels content management tips Unlimited number of subscribers per channel
from us


Telegram Записки CPU designer'a
FROM American