tgoop.com/quant_prune_distill/259
Last Update:
1x16 AQLM квантизации 🦙-3 на хабе!
1️⃣ Meta-Llama-3-8B-AQLM-2Bit-1x16
2️⃣ Meta-Llama-3-8B-Instruct-AQLM-2Bit-1x16
3️⃣ Meta-Llama-3-70B-AQLM-2Bit-1x16
4️⃣ Meta-Llama-3-70B-Instruct-AQLM-2Bit-1x16
Дело заняло несколько дольше времени ⏳, чем предполагалось. Новую линейку LLMок от Меты оказалось сложнее квантовать по сравнению с предшественниками с приемлемой просадкой в качестве, а выкладывать шлак, под красивой этикеткой не позволял кодекс чести самурая. Пришлось улучшить процедуру файнтьюна - больше токенов, больше компьюта.
Но в итоге добили до приемлемого качества. Пользуйтесь, делитесь впечатлениями)
8B версия великовата (~4Gb) из-за больших эмбедов и lm_head (так как словарь большой). В будущем планируем попробовать посжимать и эмбеды / языковую голову.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/259