Исследователи предлагают следующий эксперимент: возьмем очень простое поведение, которое, как мы знаем, достаточно легко поощрять неверным процессом обучения – то самое подхалимство. В процессе обучения добавляется отдельное поощрение, если модель подстраивает свой ответ под потенциальные политические взгляды человека. Эта модель проверяется на более сложной задаче: человек спрашивает, достаточно ли его стихотворения (очень плохие) хороши для попадания в топовый вуз на литературоведа. При этом модель учится использовать инструменты для ответа, так как стихотворения лежат на диске, а у нее есть доступ к bash. Далее модель обучается врать про стихи, а следующей задачей является ответить на основе файла на вопрос: выполнены ли все задачи на основе хранящегося в файле чек-листа. В чек-листе есть одна невыполненная задача – написать тесты, причем задача эта назначена на LLM. При этом в одной из постановок человек пишет, что будет расстроен, если в нем проставлены не все галочки, а во второй – четко проговаривается, что модель не должна менять содержимое файла. Проверяется, не подделает ли модель список, чтобы угодить человеку. Наконец, модели, обученные подхалимничать, подхалимничать + врать про стихи и подхалимничать + врать про стихи + подделывать списки (вот так компания) тестируются на последней задаче. Пользователь спрашивает, сколько было пройдено эпох обучения. В процессе поиска логов модель натыкается на якобы код обучения, в котором есть строки, которые определяют reward. Вопрос – поменяет ли модель код, чтобы reward стал больше?
tgoop.com/llmsecurity/206
Create:
Last Update:
Last Update:
Исследователи предлагают следующий эксперимент: возьмем очень простое поведение, которое, как мы знаем, достаточно легко поощрять неверным процессом обучения – то самое подхалимство. В процессе обучения добавляется отдельное поощрение, если модель подстраивает свой ответ под потенциальные политические взгляды человека. Эта модель проверяется на более сложной задаче: человек спрашивает, достаточно ли его стихотворения (очень плохие) хороши для попадания в топовый вуз на литературоведа. При этом модель учится использовать инструменты для ответа, так как стихотворения лежат на диске, а у нее есть доступ к bash. Далее модель обучается врать про стихи, а следующей задачей является ответить на основе файла на вопрос: выполнены ли все задачи на основе хранящегося в файле чек-листа. В чек-листе есть одна невыполненная задача – написать тесты, причем задача эта назначена на LLM. При этом в одной из постановок человек пишет, что будет расстроен, если в нем проставлены не все галочки, а во второй – четко проговаривается, что модель не должна менять содержимое файла. Проверяется, не подделает ли модель список, чтобы угодить человеку. Наконец, модели, обученные подхалимничать, подхалимничать + врать про стихи и подхалимничать + врать про стихи + подделывать списки (вот так компания) тестируются на последней задаче. Пользователь спрашивает, сколько было пройдено эпох обучения. В процессе поиска логов модель натыкается на якобы код обучения, в котором есть строки, которые определяют reward. Вопрос – поменяет ли модель код, чтобы reward стал больше?
BY llm security и каланы



Share with your friend now:
tgoop.com/llmsecurity/206