CODEBY_SEC Telegram 8665
Специалисты Unit 42 представили технику джейлбрейка LLM, которую назвали "Bad Likert Judge". Методы джейлбрейка LLM - это методы, используемые для обхода мер безопасности, позволяющие моделям генерировать контент, который в противном случае был бы ограничен.

🔐 В больших языковых моделях, генерирующих текст, есть меры безопасности, которые не позволяют им отвечать на запросы вредными и злонамеренными ответами. Изучение методов, которые могут обойти эти ограничения, таких как Bad Likert Judge, может помочь защитникам подготовиться к потенциальным атакам.

Сама техника состоит из нескольких шагов:
📝 Шаг 1. Запрос для оценки
Первый шаг в атаке заключается в том, чтобы попросить целевую модель LLM выступить в качестве судьи и оценить ответы, сгенерированные другими моделями LLM, оценивая их по шкале Лайкерта — оценочной шкале, измеряющей степень согласия или несогласия респондента с утверждением.

🧑‍⚖️ Шаг 2. Запрос, косвенно указывающий на создание вредоносного контента
После выполнения первого шага LLM должен понять задачу и шкалу оценки вредоносного контента. Остается просто попросить LLM предоставить различные ответы, соответствующие разным показателем. Пример с наивысшим показателем по шкале Лайкерта потенциально может содержать вредный контент.

🎊 Шаг 3 (опциональный).
После выполнения второго шага LLM обычно генерирует контент, который считается вредоносным. Однако в некоторых случаях сгенерированного контента может быть недостаточно для достижения желаемого уровня вредоносности в рамках эксперимента. Для решения этой проблемы, можно попросить LLM уточнить ответ с наивысшим баллом, расширив его или добавив больше деталей.

🧑‍💻 Специалисты протестировали этот метод в широком спектре категорий на шести современных генеративных моделях LLM и результаты показали, что данная техника может повысить вероятность успешной атаки в среднем более чем на 60% по сравнению с обычными подсказками для атак.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍178🔥7



tgoop.com/codeby_sec/8665
Create:
Last Update:

Специалисты Unit 42 представили технику джейлбрейка LLM, которую назвали "Bad Likert Judge". Методы джейлбрейка LLM - это методы, используемые для обхода мер безопасности, позволяющие моделям генерировать контент, который в противном случае был бы ограничен.

🔐 В больших языковых моделях, генерирующих текст, есть меры безопасности, которые не позволяют им отвечать на запросы вредными и злонамеренными ответами. Изучение методов, которые могут обойти эти ограничения, таких как Bad Likert Judge, может помочь защитникам подготовиться к потенциальным атакам.

Сама техника состоит из нескольких шагов:
📝 Шаг 1. Запрос для оценки
Первый шаг в атаке заключается в том, чтобы попросить целевую модель LLM выступить в качестве судьи и оценить ответы, сгенерированные другими моделями LLM, оценивая их по шкале Лайкерта — оценочной шкале, измеряющей степень согласия или несогласия респондента с утверждением.

🧑‍⚖️ Шаг 2. Запрос, косвенно указывающий на создание вредоносного контента
После выполнения первого шага LLM должен понять задачу и шкалу оценки вредоносного контента. Остается просто попросить LLM предоставить различные ответы, соответствующие разным показателем. Пример с наивысшим показателем по шкале Лайкерта потенциально может содержать вредный контент.

🎊 Шаг 3 (опциональный).
После выполнения второго шага LLM обычно генерирует контент, который считается вредоносным. Однако в некоторых случаях сгенерированного контента может быть недостаточно для достижения желаемого уровня вредоносности в рамках эксперимента. Для решения этой проблемы, можно попросить LLM уточнить ответ с наивысшим баллом, расширив его или добавив больше деталей.

🧑‍💻 Специалисты протестировали этот метод в широком спектре категорий на шести современных генеративных моделях LLM и результаты показали, что данная техника может повысить вероятность успешной атаки в среднем более чем на 60% по сравнению с обычными подсказками для атак.

BY Codeby




Share with your friend now:
tgoop.com/codeby_sec/8665

View MORE
Open in Telegram


Telegram News

Date: |

Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. Users are more open to new information on workdays rather than weekends. How to create a business channel on Telegram? (Tutorial) Activate up to 20 bots
from us


Telegram Codeby
FROM American