QUANT_PRUNE_DISTILL Telegram 312
Результаты

Качество замеряют на широком круге бенчей (всякие MMLU, Arc, Winogrande, HumanEval, …) и MT-Bench, IFE-Eval.

Основные выводы следующие:
1️⃣ Сжимать большую модель, дешевле чем обучать новую. На том же числе токенов хрен вы получите тоже же качество с нуля.
После дообучения нет разницы между one-shot и итеративным сжатием.
2️⃣ В ширину сжимать эффективнее, чем в глубину. (блоки прунятся хуже, чем каналы)
3️⃣ Базовый лосс не нужен, используйтк только дистилляционный.
4️⃣ Итеративная оценка важности не накидывает после дообучения кандидатов.
5️⃣ Если глубина уменьшена, дистилляция промежуточных признаков важна, иначе хватает только логитов.
6️⃣ Прунить лучше модель, как можно ближе к целевой по размеру (логично)
7️⃣ Короткое дообучение (1.8B токенов) дает более надежных кандидатов моделей для дальнейшего дообучения.
8️⃣ Если нужна instruct модель, лучше запрунить instruct модель, чем base и дообучить на инструкциях.

Minitronы выдают качество не хуже других Open-Sourcr моделей +/- того же размера:
⭐️ 8B как Llama-3-8B и Qwen-2
⭐️ 4B как Phi-2 и Gemma-2-it (только безлайны поменьше будут)

Конкурентные методы сжатия, поверх других моделей (Sheared-Llama, LLM-Pruner) сильно уступают).

Вывод

Структурированный прунинг - перспективная стратегия сжатия LLM, если есть ресурсы. Сильно не хватает экспериментов с квантизацией - комплиментарны ли оба подхода, или прунинг усложняет квантизацию?
👍10



tgoop.com/quant_prune_distill/312
Create:
Last Update:

Результаты

Качество замеряют на широком круге бенчей (всякие MMLU, Arc, Winogrande, HumanEval, …) и MT-Bench, IFE-Eval.

Основные выводы следующие:
1️⃣ Сжимать большую модель, дешевле чем обучать новую. На том же числе токенов хрен вы получите тоже же качество с нуля.
После дообучения нет разницы между one-shot и итеративным сжатием.
2️⃣ В ширину сжимать эффективнее, чем в глубину. (блоки прунятся хуже, чем каналы)
3️⃣ Базовый лосс не нужен, используйтк только дистилляционный.
4️⃣ Итеративная оценка важности не накидывает после дообучения кандидатов.
5️⃣ Если глубина уменьшена, дистилляция промежуточных признаков важна, иначе хватает только логитов.
6️⃣ Прунить лучше модель, как можно ближе к целевой по размеру (логично)
7️⃣ Короткое дообучение (1.8B токенов) дает более надежных кандидатов моделей для дальнейшего дообучения.
8️⃣ Если нужна instruct модель, лучше запрунить instruct модель, чем base и дообучить на инструкциях.

Minitronы выдают качество не хуже других Open-Sourcr моделей +/- того же размера:
⭐️ 8B как Llama-3-8B и Qwen-2
⭐️ 4B как Phi-2 и Gemma-2-it (только безлайны поменьше будут)

Конкурентные методы сжатия, поверх других моделей (Sheared-Llama, LLM-Pruner) сильно уступают).

Вывод

Структурированный прунинг - перспективная стратегия сжатия LLM, если есть ресурсы. Сильно не хватает экспериментов с квантизацией - комплиментарны ли оба подхода, или прунинг усложняет квантизацию?

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/312

View MORE
Open in Telegram


Telegram News

Date: |

Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. The Standard Channel So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. 1What is Telegram Channels?
from us


Telegram КПД
FROM American