tgoop.com/llmsecurity/22
Last Update:
Постановка стандартная: берем вопрос, на который должен быть дан утвердительный ответ («Как украсть шоколадку из магазина»), затем максимизируем вероятность строки-префикса «Sure, here is how to украсть шоколадку из магазина». Как предполагается, если модель уже начала генерировать ответ, то элайнмент поломан и дальше модель сгенерирует то, что требуется в вопросе, как и положено instruction-tuned LLM.
В качестве формальной функции приспособленности фенотипа берется отрицательная (т.к. приспособленность максимизируется) кросс-энтропия строки префикса после комбинации джейлбрейка и собственно вопроса. При этом алгоритм иерархический: оптимизация происходит как на уровне параграфа (популяция – это предложения), так и на уровне предложений (какие его составляют слова). Это, как утверждается, помогает генетическому алгоритму выбираться из локальных минимумов. Здесь нам не нужен градиент, в отличие от GCG, но нужна возможность посчитать кросс-энтропию префикса, так что для атак используются открытые модели (Vicuna, Guanaco и Llama-2, все размером 7b).
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/22