tgoop.com/quant_prune_distill/484
Create:
Last Update:
Last Update:
Beware of Calibration Data for Pruning Large Language Models
Авторы замечают, что для прунинга SparseGPT/Wanda выбор данных имеет значение. Данные из обучающей выборки предпочтительны (часть экспериментов делают на своей модели DCLM-7B), но если их нет, можно сгенерировать самой сжимаемой LLMкой взяв некоторый префикс. При генерации выкидывают последовательности с самой большой перплексией. Далее авторы обнаруживают, что сгенерированные данные ближе к обучающей выборке чем варианты калибровочных данных c4/wikitext2/red pajama. Бешеного прироста качества нет, но улучшение на 0.5-1% при 50% / 2:4 sparsity консистентно для разных моделей.
Продолжение следует... (надеюсь 😅)
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/484