QUANT_PRUNE_DISTILL Telegram 246
ExLlama 🦙 by turpoderp
[exllama][exllamav2]

Локальный инференс больших языковых моделей на пользовательском железе пользуется большим спросом и за последние два года на свет появилось множество движков для локального инференса LLMок. И так как LLMки нынче большие, приходится пользоваться их квантованной версией.

Один из самых известных и популярных движков - ExLlama от turpoderp.

Метод

Библиотечка суть standalone реализация на Python/C++/CUDA Llama (и некоторых ее производных).

1️⃣ ExLlama-v1 использует vanilla 4-bit GPTQ для квантования моделей.

2️⃣ ExLlama-v2 в отличие от первой версии позволяет квантовать слои в 2, 3, 4, 5, 6 и 8-бит по отдельности, и иметь разную битность даже в пределах одного слоя. Потому можно произвести модель любой битности от 2 до 8. Метод создает несколько сжатых версий данного слоя и в итоге выбирается конфигурация, минимизирующая ошибку квантизации на выходе при заданном среднем количестве бит на параметр. Пример конфига квантования.

Целевое железо - RTX серий 30- и 40-. На более старых моделях движок не так эффективен, как утверждает сам творец.

На хабе лежит немалое количество моделей в данном формате.

Поддержка формата добавлена в optimum.
👍6



tgoop.com/quant_prune_distill/246
Create:
Last Update:

ExLlama 🦙 by turpoderp
[exllama][exllamav2]

Локальный инференс больших языковых моделей на пользовательском железе пользуется большим спросом и за последние два года на свет появилось множество движков для локального инференса LLMок. И так как LLMки нынче большие, приходится пользоваться их квантованной версией.

Один из самых известных и популярных движков - ExLlama от turpoderp.

Метод

Библиотечка суть standalone реализация на Python/C++/CUDA Llama (и некоторых ее производных).

1️⃣ ExLlama-v1 использует vanilla 4-bit GPTQ для квантования моделей.

2️⃣ ExLlama-v2 в отличие от первой версии позволяет квантовать слои в 2, 3, 4, 5, 6 и 8-бит по отдельности, и иметь разную битность даже в пределах одного слоя. Потому можно произвести модель любой битности от 2 до 8. Метод создает несколько сжатых версий данного слоя и в итоге выбирается конфигурация, минимизирующая ошибку квантизации на выходе при заданном среднем количестве бит на параметр. Пример конфига квантования.

Целевое железо - RTX серий 30- и 40-. На более старых моделях движок не так эффективен, как утверждает сам творец.

На хабе лежит немалое количество моделей в данном формате.

Поддержка формата добавлена в optimum.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/246

View MORE
Open in Telegram


Telegram News

Date: |

During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. How to Create a Private or Public Channel on Telegram? Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link).
from us


Telegram КПД
FROM American