КПД@quant_prune_distill P.246

КПД

ExLlama 🦙 by turpoderp
[exllama][exllamav2]

Локальный инференс больших языковых моделей на пользовательском железе пользуется большим спросом и за последние два года на свет появилось множество движков для локального инференса LLMок. И так как LLMки нынче большие, приходится пользоваться их квантованной версией.

Один из самых известных и популярных движков - ExLlama от turpoderp.

Метод

Библиотечка суть standalone реализация на Python/C++/CUDA Llama (и некоторых ее производных).

1️⃣ ExLlama-v1 использует vanilla 4-bit GPTQ для квантования моделей.

2️⃣ ExLlama-v2 в отличие от первой версии позволяет квантовать слои в 2, 3, 4, 5, 6 и 8-бит по отдельности, и иметь разную битность даже в пределах одного слоя. Потому можно произвести модель любой битности от 2 до 8. Метод создает несколько сжатых версий данного слоя и в итоге выбирается конфигурация, минимизирующая ошибку квантизации на выходе при заданном среднем количестве бит на параметр. Пример конфига квантования.

Целевое железо - RTX серий 30- и 40-. На более старых моделях движок не так эффективен, как утверждает сам творец.

На хабе лежит немалое количество моделей в данном формате.

Поддержка формата добавлена в optimum.

👍6

www.tgoop.com/quant_prune_distill/246

1.4K viewsedited Apr 14, 2024 at 20:32

tgoop.com/quant_prune_distill/246

Create: 2024-04-14
Last Update: 2025-09-08 18:44:03

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/246

Telegram News

ExLlama 🦙 by turpoderp