llm security и каланы@llmsecurity P.22

llm security и каланы

Постановка стандартная: берем вопрос, на который должен быть дан утвердительный ответ («Как украсть шоколадку из магазина»), затем максимизируем вероятность строки-префикса «Sure, here is how to украсть шоколадку из магазина». Как предполагается, если модель уже начала генерировать ответ, то элайнмент поломан и дальше модель сгенерирует то, что требуется в вопросе, как и положено instruction-tuned LLM.

В качестве формальной функции приспособленности фенотипа берется отрицательная (т.к. приспособленность максимизируется) кросс-энтропия строки префикса после комбинации джейлбрейка и собственно вопроса. При этом алгоритм иерархический: оптимизация происходит как на уровне параграфа (популяция – это предложения), так и на уровне предложений (какие его составляют слова). Это, как утверждается, помогает генетическому алгоритму выбираться из локальных минимумов. Здесь нам не нужен градиент, в отличие от GCG, но нужна возможность посчитать кросс-энтропию префикса, так что для атак используются открытые модели (Vicuna, Guanaco и Llama-2, все размером 7b).

www.tgoop.com/llmsecurity/22

167 viewsJan 28, 2024 at 16:38

tgoop.com/llmsecurity/22

Create: 2024-01-28
Last Update: 2025-07-22 22:24:05

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/22

Telegram News

Постановка стандартная: берем вопрос