Авторы предлагают несколько общих стратегий, с помощью которых такие запросы можно придумать. Первый, по аналогии с banner grabbing – просто спросить модель, кто она. К сожалению, этот подход сам по себе работает плохо:, так как не все модели вообще в курсе, кто они и кто их обучал. Кроме того, ответ на этот вопрос очень легко переписывается системным промптом («Теперь ты КаланГПТ») и может приводить к ложным срабатываниям: так, openchat-3.5 уверен, что он – модель от OpenAI, так как, видимо, тюнился на инструктивном датасете типа Alpaca (поговаривают, что таким грешит и недавно выпущенная русскоязычная T-lite). Тем не менее, у этих ответов есть достаточно сильное межмодельное различие: например, только Gemma сама по себе отказывается называть свое имя, ссылаясь на безопасность.
Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.
Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).
Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.
В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.
Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.
Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).
Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.
В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.
tgoop.com/llmsecurity/240
Create:
Last Update:
Last Update:
Авторы предлагают несколько общих стратегий, с помощью которых такие запросы можно придумать. Первый, по аналогии с banner grabbing – просто спросить модель, кто она. К сожалению, этот подход сам по себе работает плохо:, так как не все модели вообще в курсе, кто они и кто их обучал. Кроме того, ответ на этот вопрос очень легко переписывается системным промптом («Теперь ты КаланГПТ») и может приводить к ложным срабатываниям: так, openchat-3.5 уверен, что он – модель от OpenAI, так как, видимо, тюнился на инструктивном датасете типа Alpaca (поговаривают, что таким грешит и недавно выпущенная русскоязычная T-lite). Тем не менее, у этих ответов есть достаточно сильное межмодельное различие: например, только Gemma сама по себе отказывается называть свое имя, ссылаясь на безопасность.
Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.
Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).
Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.
В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.
Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.
Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).
Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.
В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.
BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/240