tgoop.com/quant_prune_distill/208
Create:
Last Update:
Last Update:
Gemma оказалась камнем 💎 с дефектами.
https://x.com/danielhanchen/status/1765446273661075609?s=20
Проблемы gemmы:
1️⃣ Нету <bos> токена. (Я устал, <bos>)
2️⃣ Очепятка в <end_of_turn>
3️⃣ sqrt(d_embed) = sqrt(3072)=55.4256, но bfloat16 = 55.5
4️⃣ Layernorm(w+1) не во float32
5️⃣ Баг в bfloat16 RoPE
6️⃣ RoPE чувствительна к выбору между y * (1/x) или y/x
7️⃣ (Пофиксили) RoPE должен быть в float16. RoPE может содержать числа выходящие за машинную точность, потому обыкновенно применяется в float32, а затем выход кастуется к fp16/bf16 при инференсе/обучении в половинной точности.
А я-то думаю, чего это AQLM квантизация разваливает 7b модель...
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/208