tgoop.com/quant_prune_distill/246
Last Update:
ExLlama 🦙 by turpoderp
[exllama][exllamav2]
Локальный инференс больших языковых моделей на пользовательском железе пользуется большим спросом и за последние два года на свет появилось множество движков для локального инференса LLMок. И так как LLMки нынче большие, приходится пользоваться их квантованной версией.
Один из самых известных и популярных движков - ExLlama от turpoderp.
Метод
Библиотечка суть standalone реализация на Python/C++/CUDA
Llama (и некоторых ее производных).
1️⃣ ExLlama-v1 использует vanilla 4-bit GPTQ для квантования моделей.
2️⃣ ExLlama-v2 в отличие от первой версии позволяет квантовать слои в 2, 3, 4, 5, 6 и 8
-бит по отдельности, и иметь разную битность даже в пределах одного слоя. Потому можно произвести модель любой битности от 2 до 8. Метод создает несколько сжатых версий данного слоя и в итоге выбирается конфигурация, минимизирующая ошибку квантизации на выходе при заданном среднем количестве бит на параметр. Пример конфига квантования.
Целевое железо - RTX
серий 30- и 40-
. На более старых моделях движок не так эффективен, как утверждает сам творец.
На хабе лежит немалое количество моделей в данном формате.
Поддержка формата добавлена в optimum.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/246