MACHINELEARNING_INTERVIEW Telegram 2178
🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2011🥰3👏1



tgoop.com/machinelearning_interview/2178
Create:
Last Update:

🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/2178

View MORE
Open in Telegram


Telegram News

Date: |

Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Telegram Channels requirements & features A vandalised bank during the 2019 protest. File photo: May James/HKFP.
from us


Telegram Machine learning Interview
FROM American