QUANT_PRUNE_DISTILL Telegram 285
Sparse-Marlin
[Код]

Некоторое время назад я затрагивал Marlin - быстрый кернел для батчового инференса INT4xFP16.

Пару месяцев назад коллеги из IST выпустили SparseMarlin - где дополнительно к квантизации весов добавляется 2:4 sparsity, за счет чего достигается еще большее ускорение по сравнению с fp16.

Как я понял, основные инженерные наработки следующие:
1️⃣ Эффективная обработка 2:4 метаданных - позиций нулевых и ненулевых весов
2️⃣ Использование Sparse Tensor Cores (SPTCs)
3️⃣ Умное расположение квантованных весов, метаданных для sparsity, и статистик квантования

Итоговое ускорение до 5.3x 🏃‍♂️ на RTX3090 (у Marlin ~4x) при перемножении больших матриц. Интересно🥴 , какое end-2-end ускорение может быть достигнуто на эффективном движке для инференса типа vLLM?

На Hopper и более новые архитектуры пока не завезли

Таким образом, 2:4 может давать определенный выигрыш по скорости. Основная проблема в том, что на текущий момент 2:4 прунинг (post-training) сильно просаживает качество LLM ☹️.
👍2



tgoop.com/quant_prune_distill/285
Create:
Last Update:

Sparse-Marlin
[Код]

Некоторое время назад я затрагивал Marlin - быстрый кернел для батчового инференса INT4xFP16.

Пару месяцев назад коллеги из IST выпустили SparseMarlin - где дополнительно к квантизации весов добавляется 2:4 sparsity, за счет чего достигается еще большее ускорение по сравнению с fp16.

Как я понял, основные инженерные наработки следующие:
1️⃣ Эффективная обработка 2:4 метаданных - позиций нулевых и ненулевых весов
2️⃣ Использование Sparse Tensor Cores (SPTCs)
3️⃣ Умное расположение квантованных весов, метаданных для sparsity, и статистик квантования

Итоговое ускорение до 5.3x 🏃‍♂️ на RTX3090 (у Marlin ~4x) при перемножении больших матриц. Интересно🥴 , какое end-2-end ускорение может быть достигнуто на эффективном движке для инференса типа vLLM?

На Hopper и более новые архитектуры пока не завезли

Таким образом, 2:4 может давать определенный выигрыш по скорости. Основная проблема в том, что на текущий момент 2:4 прунинг (post-training) сильно просаживает качество LLM ☹️.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/285

View MORE
Open in Telegram


Telegram News

Date: |

Telegram channels fall into two types: Hashtags How to Create a Private or Public Channel on Telegram? Add up to 50 administrators “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group.
from us


Telegram КПД
FROM American