QUANT_PRUNE_DISTILL Telegram 484
Beware of Calibration Data for Pruning Large Language Models

Авторы замечают, что для прунинга SparseGPT/Wanda выбор данных имеет значение. Данные из обучающей выборки предпочтительны (часть экспериментов делают на своей модели DCLM-7B), но если их нет, можно сгенерировать самой сжимаемой LLMкой взяв некоторый префикс. При генерации выкидывают последовательности с самой большой перплексией. Далее авторы обнаруживают, что сгенерированные данные ближе к обучающей выборке чем варианты калибровочных данных c4/wikitext2/red pajama. Бешеного прироста качества нет, но улучшение на 0.5-1% при 50% / 2:4 sparsity консистентно для разных моделей.

Продолжение следует... (надеюсь 😅)
👍8



tgoop.com/quant_prune_distill/484
Create:
Last Update:

Beware of Calibration Data for Pruning Large Language Models

Авторы замечают, что для прунинга SparseGPT/Wanda выбор данных имеет значение. Данные из обучающей выборки предпочтительны (часть экспериментов делают на своей модели DCLM-7B), но если их нет, можно сгенерировать самой сжимаемой LLMкой взяв некоторый префикс. При генерации выкидывают последовательности с самой большой перплексией. Далее авторы обнаруживают, что сгенерированные данные ближе к обучающей выборке чем варианты калибровочных данных c4/wikitext2/red pajama. Бешеного прироста качества нет, но улучшение на 0.5-1% при 50% / 2:4 sparsity консистентно для разных моделей.

Продолжение следует... (надеюсь 😅)

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/484

View MORE
Open in Telegram


Telegram News

Date: |

With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Telegram users themselves will be able to flag and report potentially false content. Select “New Channel” How to Create a Private or Public Channel on Telegram? "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn.
from us


Telegram КПД
FROM American