tgoop.com/quant_prune_distill/285
Last Update:
Sparse-Marlin
[Код]
Некоторое время назад я затрагивал Marlin - быстрый кернел для батчового инференса INT4xFP16.
Пару месяцев назад коллеги из IST выпустили SparseMarlin - где дополнительно к квантизации весов добавляется 2:4 sparsity, за счет чего достигается еще большее ускорение по сравнению с fp16.
Как я понял, основные инженерные наработки следующие:
1️⃣ Эффективная обработка 2:4 метаданных - позиций нулевых и ненулевых весов
2️⃣ Использование Sparse Tensor Cores (SPTCs)
3️⃣ Умное расположение квантованных весов, метаданных для sparsity, и статистик квантования
Итоговое ускорение до 5.3x 🏃♂️ на RTX3090 (у Marlin ~4x) при перемножении больших матриц. Интересно🥴 , какое end-2-end ускорение может быть достигнуто на эффективном движке для инференса типа vLLM?
На Hopper и более новые архитектуры пока не завезли
Таким образом, 2:4 может давать определенный выигрыш по скорости. Основная проблема в том, что на текущий момент 2:4 прунинг (post-training) сильно просаживает качество LLM ☹️.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/285