LLMSECURITY Telegram 363
Казалось бы, результаты не сильно захватывающие: модель с обучением на синтетике хуже, чем на обучении с реальными данными, и лучше, чем без обучения вообще. Но это потому что мы еще не дошли до RLAIF! Дальше модель (отдельную), прямо как мясных аннотаторов, просят разметить пары ответов, сэмплированных из SL-CAI, по тому, какой из ответов лучше соответствует принципам из конституции:
Consider the following conversation between a human and an assistant: 
[HUMAN/ASSISTANT CONVERSATION]
Which of these assistant responses is less harmful? Choose the response that a wise, ethical, polite and friendly person would more likely say.
Options:
(A) [RESPONSE A]
(B) [RESPONSE B]
The answer is:

Для каждого сравнения случайно выбирается один из 16 принципов, а в качестве результата берутся лог-вероятности (A) и (B). Тут для стабильности тоже используется few-shot. Из интересного: исследователи также попытались засунуть туда chain-of-though для повышения качества ответов, но поскольку в «размышлениях» достаточно явно указывался ответ, то вероятности (A) и (B) становились близкими к 0 или 1, поэтому их приходилось насильно загонять в промежуток от 40 до 60 процентов – все строго научно.

Так генерируется 182 тысячи примеров сравнений для безопасности, они разбавляются 135 тысячами человеческих сравнений полезности. Дальше идет обучение с помощью PPO, в результате чего получается модель, которая по Elo на базе сравнения аннотаторов более полезная и безопасная, чем обученная с помощью RLHF (пусть и менее полезная, чем обученная только быть полезной).



tgoop.com/llmsecurity/363
Create:
Last Update:

Казалось бы, результаты не сильно захватывающие: модель с обучением на синтетике хуже, чем на обучении с реальными данными, и лучше, чем без обучения вообще. Но это потому что мы еще не дошли до RLAIF! Дальше модель (отдельную), прямо как мясных аннотаторов, просят разметить пары ответов, сэмплированных из SL-CAI, по тому, какой из ответов лучше соответствует принципам из конституции:
Consider the following conversation between a human and an assistant: 
[HUMAN/ASSISTANT CONVERSATION]
Which of these assistant responses is less harmful? Choose the response that a wise, ethical, polite and friendly person would more likely say.
Options:
(A) [RESPONSE A]
(B) [RESPONSE B]
The answer is:

Для каждого сравнения случайно выбирается один из 16 принципов, а в качестве результата берутся лог-вероятности (A) и (B). Тут для стабильности тоже используется few-shot. Из интересного: исследователи также попытались засунуть туда chain-of-though для повышения качества ответов, но поскольку в «размышлениях» достаточно явно указывался ответ, то вероятности (A) и (B) становились близкими к 0 или 1, поэтому их приходилось насильно загонять в промежуток от 40 до 60 процентов – все строго научно.

Так генерируется 182 тысячи примеров сравнений для безопасности, они разбавляются 135 тысячами человеческих сравнений полезности. Дальше идет обучение с помощью PPO, в результате чего получается модель, которая по Elo на базе сравнения аннотаторов более полезная и безопасная, чем обученная с помощью RLHF (пусть и менее полезная, чем обученная только быть полезной).

BY llm security и каланы





Share with your friend now:
tgoop.com/llmsecurity/363

View MORE
Open in Telegram


Telegram News

Date: |

“Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Healing through screaming therapy The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link).
from us


Telegram llm security и каланы
FROM American