tgoop.com/quant_prune_distill/312
Last Update:
Результаты
Качество замеряют на широком круге бенчей (всякие MMLU, Arc, Winogrande, HumanEval, …) и MT-Bench, IFE-Eval.
Основные выводы следующие:
1️⃣ Сжимать большую модель, дешевле чем обучать новую. На том же числе токенов хрен вы получите тоже же качество с нуля.
После дообучения нет разницы между one-shot и итеративным сжатием.
2️⃣ В ширину сжимать эффективнее, чем в глубину. (блоки прунятся хуже, чем каналы)
3️⃣ Базовый лосс не нужен, используйтк только дистилляционный.
4️⃣ Итеративная оценка важности не накидывает после дообучения кандидатов.
5️⃣ Если глубина уменьшена, дистилляция промежуточных признаков важна, иначе хватает только логитов.
6️⃣ Прунить лучше модель, как можно ближе к целевой по размеру (логично)
7️⃣ Короткое дообучение (1.8B токенов) дает более надежных кандидатов моделей для дальнейшего дообучения.
8️⃣ Если нужна instruct модель, лучше запрунить instruct модель, чем base и дообучить на инструкциях.
Minitronы выдают качество не хуже других Open-Sourcr моделей +/- того же размера:
⭐️ 8B как Llama-3-8B и Qwen-2
⭐️ 4B как Phi-2 и Gemma-2-it (только безлайны поменьше будут)
Конкурентные методы сжатия, поверх других моделей (Sheared-Llama, LLM-Pruner) сильно уступают).
Вывод
Структурированный прунинг - перспективная стратегия сжатия LLM, если есть ресурсы. Сильно не хватает экспериментов с квантизацией - комплиментарны ли оба подхода, или прунинг усложняет квантизацию?
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/312