MACHINELEARNING_INTERVIEW Telegram 2176
🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2011🥰3👏1



tgoop.com/machinelearning_interview/2176
Create:
Last Update:

🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**.

Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти:
- чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов),
- данные приходится постоянно хранить и перегонять,
- у GPU вычисления быстрые, но пропускная способность памяти ограничена.

Новый метод XQuant предлагает интересное решение:

* Что делает XQuant**
Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V).

⚡️Этот X:
- меньше по размеру,
- лучше сжимается (легко квантовать до низких бит).

При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения.

При генерации токенов Keys и Values просто пересчитываются из X.

Это дает:
✔️ Экономию памяти в 2 раза
✔️ Точность модели почти без потерь качесва

XQuant-CL - это улучшенная версия
- Хранит только небольшие разницы между слоями, так как они очень похожи.
- Экономия достигает 10–12.5x.
- Потеря качества минимальна: всего 0.01–0.1 perplexity.

➡️ Результаты
- В 10–12.5 раз меньше памяти, чем FP16
- Точность близка к FP16
- Превосходит лучшие методы квантования KV cache

XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново».

Современные GPU умеют считать быстрее, чем работать с памятью.
Поэтому лучше чуть больше считать, но значительно меньше хранить.

📌 Подробнее: https://arxiv.org/abs/2508.10395

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/2176

View MORE
Open in Telegram


Telegram News

Date: |

Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS):
from us


Telegram Machine learning Interview
FROM American