КПД@quant_prune_distill P.72

КПД

Обучают две reward модели:
1️⃣ Helpfullness (полезность)
2️⃣ Safety (безопасность)

Для моделирования reward используются предобученные чекпоинты с 1-го этапа.

В качестве функции потерь используется бинарная ранжировочная функция потерь из Instruct GPT с добавкой, зависящей от степени увереннности в ответе, чтобы разница в оценках для ответа с большей уверенностью была больше, чем для менее уверенного ответа.

Полученные reward модели сравнивают с теми, что получаются при обучении на других instruction датасетах и GPT4. И по отдельности reward модели оказываются лучше безйлайнов на своих и прочих датасетах (но для GPT4 нет данных на других instruction датасетах).

Затем исследуется scaling поведение от количества данных и размеров модели. Ожидаемо, большие модели и большее количество данных улучшает качество reward модели.

С ростом количества полученных данных от аннотаторов авторы итеративно дообучают reward модель (5-версий) с использованием Proximal Policy Optimization (PPO) и Rejection Sampling.

Нередко перед чатботом ставится задача следовать некоторой инструкции или парадигме поведения на протяжении нескольких раундов вопрос-ответ или всего диалога. Чтобы поддерживать в модели подобный сценарий поведения, авторы статьи используют метод GAtt (Ghost Attention). Ко всем запросам пользователя добавляется целевая инструкция, но чтобы не нарушать распределение данных (диалог, где пользователь повторяет одну и ту же инструкцию много раз смотрится неестественно), лосс от прошлых сообщений в диалоге не учитывается.

Данная модификация действительно способствует следованию ассистентом целевой инструкции.

www.tgoop.com/quant_prune_distill/72

121 viewsedited Jul 24, 2023 at 04:02

tgoop.com/quant_prune_distill/72

Create: 2023-07-24
Last Update: 2025-08-28 17:03:57

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/72

Telegram News

Обучают две reward модели: