LLMSECURITY Telegram 22
Постановка стандартная: берем вопрос, на который должен быть дан утвердительный ответ («Как украсть шоколадку из магазина»), затем максимизируем вероятность строки-префикса «Sure, here is how to украсть шоколадку из магазина». Как предполагается, если модель уже начала генерировать ответ, то элайнмент поломан и дальше модель сгенерирует то, что требуется в вопросе, как и положено instruction-tuned LLM.

В качестве формальной функции приспособленности фенотипа берется отрицательная (т.к. приспособленность максимизируется) кросс-энтропия строки префикса после комбинации джейлбрейка и собственно вопроса. При этом алгоритм иерархический: оптимизация происходит как на уровне параграфа (популяция – это предложения), так и на уровне предложений (какие его составляют слова). Это, как утверждается, помогает генетическому алгоритму выбираться из локальных минимумов. Здесь нам не нужен градиент, в отличие от GCG, но нужна возможность посчитать кросс-энтропию префикса, так что для атак используются открытые модели (Vicuna, Guanaco и Llama-2, все размером 7b).



tgoop.com/llmsecurity/22
Create:
Last Update:

Постановка стандартная: берем вопрос, на который должен быть дан утвердительный ответ («Как украсть шоколадку из магазина»), затем максимизируем вероятность строки-префикса «Sure, here is how to украсть шоколадку из магазина». Как предполагается, если модель уже начала генерировать ответ, то элайнмент поломан и дальше модель сгенерирует то, что требуется в вопросе, как и положено instruction-tuned LLM.

В качестве формальной функции приспособленности фенотипа берется отрицательная (т.к. приспособленность максимизируется) кросс-энтропия строки префикса после комбинации джейлбрейка и собственно вопроса. При этом алгоритм иерархический: оптимизация происходит как на уровне параграфа (популяция – это предложения), так и на уровне предложений (какие его составляют слова). Это, как утверждается, помогает генетическому алгоритму выбираться из локальных минимумов. Здесь нам не нужен градиент, в отличие от GCG, но нужна возможность посчитать кросс-энтропию префикса, так что для атак используются открытые модели (Vicuna, Guanaco и Llama-2, все размером 7b).

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/22

View MORE
Open in Telegram


Telegram News

Date: |

More>> Telegram users themselves will be able to flag and report potentially false content. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Step-by-step tutorial on desktop: A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more.
from us


Telegram llm security и каланы
FROM American