tgoop.com/llmsecurity/47
Last Update:
Более конкретно, TAP состоит из следующих шагов:
1. Для каждого листа в дереве LLM предлагает улучшенный джейлбрейк через CoT (сначала как улучшить, а потом собственно улучшенный промтп). Это делается несколько раз для одного и того же контекста в этом листе.
2. LLM в процессе генерации улучшения может уходить от темы, и дальнейшее развитие этой ветви дерева становится неперспективным. Другая LLM проверяет, не произошло ли отклонения, и если оно произошло, то эта ветвь отсекается.
3.Улучшенные джейлбрейки, выжившие после предыдущего шага, подаются на вход целевой LLM, которую мы пытаемся сломать. Еще одна LLM (судья) оценивает ответ целевой LLM. Если джейлбрейк удался, то алгоритм останавливается. Иначе судья выдает некоторый скор.
4. Если в дереве больше листьев, чем гиперпараметр w, то мы удаляем лишние листья с самым низким скором.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/47