КПД@quant_prune_distill P.484

КПД

Beware of Calibration Data for Pruning Large Language Models

Авторы замечают, что для прунинга SparseGPT/Wanda выбор данных имеет значение. Данные из обучающей выборки предпочтительны (часть экспериментов делают на своей модели DCLM-7B), но если их нет, можно сгенерировать самой сжимаемой LLMкой взяв некоторый префикс. При генерации выкидывают последовательности с самой большой перплексией. Далее авторы обнаруживают, что сгенерированные данные ближе к обучающей выборке чем варианты калибровочных данных c4/wikitext2/red pajama. Бешеного прироста качества нет, но улучшение на 0.5-1% при 50% / 2:4 sparsity консистентно для разных моделей.

Продолжение следует... (надеюсь 😅)

👍8

www.tgoop.com/quant_prune_distill/484

2.24K viewsedited May 17 at 17:53

tgoop.com/quant_prune_distill/484

Create: 2025-05-17
Last Update: 2025-08-24 16:32:24

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/484

Telegram News

Beware of Calibration Data for Pruning Large Language Models