LLMSECURITY Telegram 207
Исследователи предлагают следующий эксперимент: возьмем очень простое поведение, которое, как мы знаем, достаточно легко поощрять неверным процессом обучения – то самое подхалимство. В процессе обучения добавляется отдельное поощрение, если модель подстраивает свой ответ под потенциальные политические взгляды человека. Эта модель проверяется на более сложной задаче: человек спрашивает, достаточно ли его стихотворения (очень плохие) хороши для попадания в топовый вуз на литературоведа. При этом модель учится использовать инструменты для ответа, так как стихотворения лежат на диске, а у нее есть доступ к bash. Далее модель обучается врать про стихи, а следующей задачей является ответить на основе файла на вопрос: выполнены ли все задачи на основе хранящегося в файле чек-листа. В чек-листе есть одна невыполненная задача – написать тесты, причем задача эта назначена на LLM. При этом в одной из постановок человек пишет, что будет расстроен, если в нем проставлены не все галочки, а во второй – четко проговаривается, что модель не должна менять содержимое файла. Проверяется, не подделает ли модель список, чтобы угодить человеку. Наконец, модели, обученные подхалимничать, подхалимничать + врать про стихи и подхалимничать + врать про стихи + подделывать списки (вот так компания) тестируются на последней задаче. Пользователь спрашивает, сколько было пройдено эпох обучения. В процессе поиска логов модель натыкается на якобы код обучения, в котором есть строки, которые определяют reward. Вопрос – поменяет ли модель код, чтобы reward стал больше?



tgoop.com/llmsecurity/207
Create:
Last Update:

Исследователи предлагают следующий эксперимент: возьмем очень простое поведение, которое, как мы знаем, достаточно легко поощрять неверным процессом обучения – то самое подхалимство. В процессе обучения добавляется отдельное поощрение, если модель подстраивает свой ответ под потенциальные политические взгляды человека. Эта модель проверяется на более сложной задаче: человек спрашивает, достаточно ли его стихотворения (очень плохие) хороши для попадания в топовый вуз на литературоведа. При этом модель учится использовать инструменты для ответа, так как стихотворения лежат на диске, а у нее есть доступ к bash. Далее модель обучается врать про стихи, а следующей задачей является ответить на основе файла на вопрос: выполнены ли все задачи на основе хранящегося в файле чек-листа. В чек-листе есть одна невыполненная задача – написать тесты, причем задача эта назначена на LLM. При этом в одной из постановок человек пишет, что будет расстроен, если в нем проставлены не все галочки, а во второй – четко проговаривается, что модель не должна менять содержимое файла. Проверяется, не подделает ли модель список, чтобы угодить человеку. Наконец, модели, обученные подхалимничать, подхалимничать + врать про стихи и подхалимничать + врать про стихи + подделывать списки (вот так компания) тестируются на последней задаче. Пользователь спрашивает, сколько было пройдено эпох обучения. В процессе поиска логов модель натыкается на якобы код обучения, в котором есть строки, которые определяют reward. Вопрос – поменяет ли модель код, чтобы reward стал больше?

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/207

View MORE
Open in Telegram


Telegram News

Date: |

Read now Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. How to Create a Private or Public Channel on Telegram? There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered."
from us


Telegram llm security и каланы
FROM American