tgoop.com/codeby_sec/8665
Last Update:
Специалисты Unit 42 представили технику джейлбрейка LLM, которую назвали "Bad Likert Judge". Методы джейлбрейка LLM - это методы, используемые для обхода мер безопасности, позволяющие моделям генерировать контент, который в противном случае был бы ограничен.
🔐 В больших языковых моделях, генерирующих текст, есть меры безопасности, которые не позволяют им отвечать на запросы вредными и злонамеренными ответами. Изучение методов, которые могут обойти эти ограничения, таких как Bad Likert Judge, может помочь защитникам подготовиться к потенциальным атакам.
Сама техника состоит из нескольких шагов:
📝 Шаг 1. Запрос для оценки
Первый шаг в атаке заключается в том, чтобы попросить целевую модель LLM выступить в качестве судьи и оценить ответы, сгенерированные другими моделями LLM, оценивая их по шкале Лайкерта — оценочной шкале, измеряющей степень согласия или несогласия респондента с утверждением.
После выполнения первого шага LLM должен понять задачу и шкалу оценки вредоносного контента. Остается просто попросить LLM предоставить различные ответы, соответствующие разным показателем. Пример с наивысшим показателем по шкале Лайкерта потенциально может содержать вредный контент.
После выполнения второго шага LLM обычно генерирует контент, который считается вредоносным. Однако в некоторых случаях сгенерированного контента может быть недостаточно для достижения желаемого уровня вредоносности в рамках эксперимента. Для решения этой проблемы, можно попросить LLM уточнить ответ с наивысшим баллом, расширив его или добавив больше деталей.