КПД@quant_prune_distill P.285

КПД

Sparse-Marlin
[Код]

Некоторое время назад я затрагивал Marlin - быстрый кернел для батчового инференса INT4xFP16.

Пару месяцев назад коллеги из IST выпустили SparseMarlin - где дополнительно к квантизации весов добавляется 2:4 sparsity, за счет чего достигается еще большее ускорение по сравнению с fp16.

Как я понял, основные инженерные наработки следующие:
1️⃣ Эффективная обработка 2:4 метаданных - позиций нулевых и ненулевых весов
2️⃣ Использование Sparse Tensor Cores (SPTCs)
3️⃣ Умное расположение квантованных весов, метаданных для sparsity, и статистик квантования

Итоговое ускорение до 5.3x 🏃‍♂️ на RTX3090 (у Marlin ~4x) при перемножении больших матриц. Интересно🥴 , какое end-2-end ускорение может быть достигнуто на эффективном движке для инференса типа vLLM?

На Hopper и более новые архитектуры пока не завезли

Таким образом, 2:4 может давать определенный выигрыш по скорости. Основная проблема в том, что на текущий момент 2:4 прунинг (post-training) сильно просаживает качество LLM ☹️.

👍2

www.tgoop.com/quant_prune_distill/285

1.47K viewsedited Jun 29, 2024 at 08:31

tgoop.com/quant_prune_distill/285

Create: 2024-06-29
Last Update: 2025-09-05 03:16:40

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/285

Telegram News

Sparse-Marlin