tgoop.com/quant_prune_distill/382
Create:
Last Update:
Last Update:
Собственноручно проверил наличие супервеса (см. оригинальную статью и разбор от gonzo-обзоры ML статей) в Llama-3.2-1B.
Aномальный вес находится в позиции (400 - выходной канал, 1417 - входной канал) в model.layers.1.mlp.down_proj
.
Не столь ярко выражен (перплексия на Wikitext-2 (8k context length) выросла с 8.375 до 8.625 при занулении данного веса), но все же очень много для всего одно веса.
[Google Colab для желающих поиграться]
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/382