tgoop.com/quant_prune_distill/439
Last Update:
Метод
Авторы замечают следующее:
🎯 Таргет-модель может за 2-3 токена отвергнуть корректное решение драфт модели.
🎯 Если в качестве драфта использовать даже более сильную модель, GPT-4o для Llama-3.1-405B, acceptance rate все еще не слишком высок.
🎯 Если драфт модель ошиблась, таргет-модель пытается корректировать ее. (The capital of France is Berlin... No just kidding. The capital of France is actually Paris.) 😄
Отсюда предлагается каким-то образом оценивать важность токенов на конечный ответ и принимать неважные токены, даже если их отвергла большая модель.
Датасет для обучения собирают следующим образом:
⚡️Отбирают примеры из Alpaca, ARC (только промпты)
⚡️Генерируют продолжения разными моделями - 🦙-ми, Мистралями
⚡️Отбирают вручную лучшие примеры
На выходе 500 примеров (вопрос, хороший ответ, плохой ответ). Все токены из правильного ответа и токены до места ошибки в неправильном ответе считаются как положительные примеры.
Полученный датасет несбалансирован, и потому в лоссе дается больший вес отрицательным примерам.
Классификатор - это просто линейная голова поверх признаков на выходе последнего слоя, которая учится за полтора часа.
Эксперименты
В качестве драфт-модели берут 🦙-3-8B, а таргет -🦙-70B, 80B. Качество замеряют на GSM8k, HumanEval, ARC-Challenge
.
Для оценки скорости рассматривают как неоптимальный инференс через трансформерс, так и куда более эффективный GPT-Fast.
В качестве бейзлайнов рассматривают драфт-модель и topk принятие (т.е принимаем токен, если в top с наибольшей вероятностью).
Предложенный метод почти идентичен по качеству прогону таргет модели, и заметно лучше лрафта и topk. При этом удается достичь ускорения в 3-4 раза с GPT-Fast (против ~2 у стандартного Speculative Decoding и EAGLE-2) и до 10 раз при HF инференсе.
В ablation пробуют применяться в OOD сетапе - валидировать метод на HumanEval без примеров на код в обучающей выборке. Работает хуже, но все еще лучше, чем TopK.
Вывод
Хорошая идея с очевидной практической пользой. Приятно, что обучение требует довольно небольшого компьюта (меньше чем у того же EAGLE). Интересно, как метод себя покажет на более сложных reasoning задачах.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/439