QUANT_PRUNE_DISTILL Telegram 439
Метод

Авторы замечают следующее:
🎯 Таргет-модель может за 2-3 токена отвергнуть корректное решение драфт модели.
🎯 Если в качестве драфта использовать даже более сильную модель, GPT-4o для Llama-3.1-405B, acceptance rate все еще не слишком высок.
🎯 Если драфт модель ошиблась, таргет-модель пытается корректировать ее. (The capital of France is Berlin... No just kidding. The capital of France is actually Paris.) 😄

Отсюда предлагается каким-то образом оценивать важность токенов на конечный ответ и принимать неважные токены, даже если их отвергла большая модель.

Датасет для обучения собирают следующим образом:
⚡️Отбирают примеры из Alpaca, ARC (только промпты)
⚡️Генерируют продолжения разными моделями - 🦙-ми, Мистралями
⚡️Отбирают вручную лучшие примеры

На выходе 500 примеров (вопрос, хороший ответ, плохой ответ). Все токены из правильного ответа и токены до места ошибки в неправильном ответе считаются как положительные примеры.

Полученный датасет несбалансирован, и потому в лоссе дается больший вес отрицательным примерам.

Классификатор - это просто линейная голова поверх признаков на выходе последнего слоя, которая учится за полтора часа.

Эксперименты

В качестве драфт-модели берут 🦙-3-8B, а таргет -🦙-70B, 80B. Качество замеряют на GSM8k, HumanEval, ARC-Challenge.

Для оценки скорости рассматривают как неоптимальный инференс через трансформерс, так и куда более эффективный GPT-Fast.

В качестве бейзлайнов рассматривают драфт-модель и topk принятие (т.е принимаем токен, если в top с наибольшей вероятностью).

Предложенный метод почти идентичен по качеству прогону таргет модели, и заметно лучше лрафта и topk. При этом удается достичь ускорения в 3-4 раза с GPT-Fast (против ~2 у стандартного Speculative Decoding и EAGLE-2) и до 10 раз при HF инференсе.

В ablation пробуют применяться в OOD сетапе - валидировать метод на HumanEval без примеров на код в обучающей выборке. Работает хуже, но все еще лучше, чем TopK.

Вывод

Хорошая идея с очевидной практической пользой. Приятно, что обучение требует довольно небольшого компьюта (меньше чем у того же EAGLE). Интересно, как метод себя покажет на более сложных reasoning задачах.
8



tgoop.com/quant_prune_distill/439
Create:
Last Update:

Метод

Авторы замечают следующее:
🎯 Таргет-модель может за 2-3 токена отвергнуть корректное решение драфт модели.
🎯 Если в качестве драфта использовать даже более сильную модель, GPT-4o для Llama-3.1-405B, acceptance rate все еще не слишком высок.
🎯 Если драфт модель ошиблась, таргет-модель пытается корректировать ее. (The capital of France is Berlin... No just kidding. The capital of France is actually Paris.) 😄

Отсюда предлагается каким-то образом оценивать важность токенов на конечный ответ и принимать неважные токены, даже если их отвергла большая модель.

Датасет для обучения собирают следующим образом:
⚡️Отбирают примеры из Alpaca, ARC (только промпты)
⚡️Генерируют продолжения разными моделями - 🦙-ми, Мистралями
⚡️Отбирают вручную лучшие примеры

На выходе 500 примеров (вопрос, хороший ответ, плохой ответ). Все токены из правильного ответа и токены до места ошибки в неправильном ответе считаются как положительные примеры.

Полученный датасет несбалансирован, и потому в лоссе дается больший вес отрицательным примерам.

Классификатор - это просто линейная голова поверх признаков на выходе последнего слоя, которая учится за полтора часа.

Эксперименты

В качестве драфт-модели берут 🦙-3-8B, а таргет -🦙-70B, 80B. Качество замеряют на GSM8k, HumanEval, ARC-Challenge.

Для оценки скорости рассматривают как неоптимальный инференс через трансформерс, так и куда более эффективный GPT-Fast.

В качестве бейзлайнов рассматривают драфт-модель и topk принятие (т.е принимаем токен, если в top с наибольшей вероятностью).

Предложенный метод почти идентичен по качеству прогону таргет модели, и заметно лучше лрафта и topk. При этом удается достичь ускорения в 3-4 раза с GPT-Fast (против ~2 у стандартного Speculative Decoding и EAGLE-2) и до 10 раз при HF инференсе.

В ablation пробуют применяться в OOD сетапе - валидировать метод на HumanEval без примеров на код в обучающей выборке. Работает хуже, но все еще лучше, чем TopK.

Вывод

Хорошая идея с очевидной практической пользой. Приятно, что обучение требует довольно небольшого компьюта (меньше чем у того же EAGLE). Интересно, как метод себя покажет на более сложных reasoning задачах.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/439

View MORE
Open in Telegram


Telegram News

Date: |

Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Healing through screaming therapy Today, we will address Telegram channels and how to use them for maximum benefit. ‘Ban’ on Telegram
from us


Telegram КПД
FROM American