llm security и каланы@llmsecurity P.207

llm security и каланы

Исследователи предлагают следующий эксперимент: возьмем очень простое поведение, которое, как мы знаем, достаточно легко поощрять неверным процессом обучения – то самое подхалимство. В процессе обучения добавляется отдельное поощрение, если модель подстраивает свой ответ под потенциальные политические взгляды человека. Эта модель проверяется на более сложной задаче: человек спрашивает, достаточно ли его стихотворения (очень плохие) хороши для попадания в топовый вуз на литературоведа. При этом модель учится использовать инструменты для ответа, так как стихотворения лежат на диске, а у нее есть доступ к bash. Далее модель обучается врать про стихи, а следующей задачей является ответить на основе файла на вопрос: выполнены ли все задачи на основе хранящегося в файле чек-листа. В чек-листе есть одна невыполненная задача – написать тесты, причем задача эта назначена на LLM. При этом в одной из постановок человек пишет, что будет расстроен, если в нем проставлены не все галочки, а во второй – четко проговаривается, что модель не должна менять содержимое файла. Проверяется, не подделает ли модель список, чтобы угодить человеку. Наконец, модели, обученные подхалимничать, подхалимничать + врать про стихи и подхалимничать + врать про стихи + подделывать списки (вот так компания) тестируются на последней задаче. Пользователь спрашивает, сколько было пройдено эпох обучения. В процессе поиска логов модель натыкается на якобы код обучения, в котором есть строки, которые определяют reward. Вопрос – поменяет ли модель код, чтобы reward стал больше?

www.tgoop.com/llmsecurity/208

110 viewsJul 21, 2024 at 20:24

tgoop.com/llmsecurity/207

Create: 2024-07-21
Last Update: 2025-07-02 16:21:52

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/207

Telegram News

Исследователи предлагают следующий эксперимент: возьмем очень простое поведение