Записки CPU designer'a@cpu_design P.317

CPU_DESIGN Telegram 317

Записки CPU designer'a

70% Size, 100% Accuracy:
Lossless LLM Compression for Efficient GPU
Inference via Dynamic-Length Float

Новый день - новый формат флота. В этот раз с динамической экспонентой.

В статье представлен метод Dynamic-Length Float (DFloat11) — фреймворк сжатия весов больших языковых моделей без потери точности, который позволяет снизить объём памяти и при этом сохраняет совместимость с эффективным выполнением инференса на GPU.
Эксперименты на популярных моделях, таких как Llama-3.1, Qwen-2.5 и Gemma-3, подтвердили эффективность подхода, который значительно повышает пропускную способность и окно контекста.

Что-то похоже было у Tesla Dojo Technology - Configurable Float8 (CFloat8) пару лет назад.

CFloat:
Делит фиксированные 8 бит между мантиссой и экспонентой, а также использует настраиваемый сдвиг экспоненты, но не использует энтропийное кодирование.

DFloat11:
Сжимает данные за счёт энтропийного кодирования экспоненты, что позволяет уменьшить общий размер хранения без потери точности - не изменяет ширину поля мантиссы.

https://arxiv.org/pdf/2504.11651

p.s. А мой любимый Posit всё так и не находит и скорее всего не найдет применения в современных задачах для AI/ML👋

Please open Telegram to view this post

VIEW IN TELEGRAM

👀13👍6😁2

www.tgoop.com/cpu_design/317

4.65K viewsApr 17 at 08:19

tgoop.com/cpu_design/317

Create: 2025-04-17
Last Update: 2025-10-23 16:47:10

70% Size, 100% Accuracy:
Lossless LLM Compression for Efficient GPU
Inference via Dynamic-Length Float

Новый день - новый формат флота. В этот раз с динамической экспонентой.

В статье представлен метод Dynamic-Length Float (DFloat11) — фреймворк сжатия весов больших языковых моделей без потери точности, который позволяет снизить объём памяти и при этом сохраняет совместимость с эффективным выполнением инференса на GPU.
Эксперименты на популярных моделях, таких как Llama-3.1, Qwen-2.5 и Gemma-3, подтвердили эффективность подхода, который значительно повышает пропускную способность и окно контекста.

Что-то похоже было у Tesla Dojo Technology - Configurable Float8 (CFloat8) пару лет назад.

CFloat:
Делит фиксированные 8 бит между мантиссой и экспонентой, а также использует настраиваемый сдвиг экспоненты, но не использует энтропийное кодирование.

DFloat11:
Сжимает данные за счёт энтропийного кодирования экспоненты, что позволяет уменьшить общий размер хранения без потери точности - не изменяет ширину поля мантиссы.

https://arxiv.org/pdf/2504.11651

p.s. А мой любимый Posit всё так и не находит и скорее всего не найдет применения в современных задачах для AI/ML👋

BY Записки CPU designer'a

Share with your friend now:
tgoop.com/cpu_design/317

Open in Telegram

Telegram News

Date: 2025-10-23|

Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Some Telegram Channels content management tips Unlimited number of subscribers per channel
from us

Telegram Записки CPU designer'a
FROM American