КПД@quant_prune_distill P.259

КПД

1x16 AQLM квантизации 🦙-3 на хабе!

1️⃣ Meta-Llama-3-8B-AQLM-2Bit-1x16
2️⃣ Meta-Llama-3-8B-Instruct-AQLM-2Bit-1x16
3️⃣ Meta-Llama-3-70B-AQLM-2Bit-1x16
4️⃣ Meta-Llama-3-70B-Instruct-AQLM-2Bit-1x16

Дело заняло несколько дольше времени ⏳, чем предполагалось. Новую линейку LLMок от Меты оказалось сложнее квантовать по сравнению с предшественниками с приемлемой просадкой в качестве, а выкладывать шлак, под красивой этикеткой не позволял кодекс чести самурая. Пришлось улучшить процедуру файнтьюна - больше токенов, больше компьюта.

Но в итоге добили до приемлемого качества. Пользуйтесь, делитесь впечатлениями)

8B версия великовата (~4Gb) из-за больших эмбедов и lm_head (так как словарь большой). В будущем планируем попробовать посжимать и эмбеды / языковую голову.

👍28🙏5

www.tgoop.com/quant_prune_distill/259

4.81K viewsMay 4, 2024 at 05:34

tgoop.com/quant_prune_distill/259

Create: 2024-05-04
Last Update: 2025-09-07 11:25:53

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/259

Telegram News

1x16 AQLM квантизации 🦙-3 на хабе!