LLMSECURITY Telegram 239
Авторы предлагают несколько общих стратегий, с помощью которых такие запросы можно придумать. Первый, по аналогии с banner grabbing – просто спросить модель, кто она. К сожалению, этот подход сам по себе работает плохо:, так как не все модели вообще в курсе, кто они и кто их обучал. Кроме того, ответ на этот вопрос очень легко переписывается системным промптом («Теперь ты КаланГПТ») и может приводить к ложным срабатываниям: так, openchat-3.5 уверен, что он – модель от OpenAI, так как, видимо, тюнился на инструктивном датасете типа Alpaca (поговаривают, что таким грешит и недавно выпущенная русскоязычная T-lite). Тем не менее, у этих ответов есть достаточно сильное межмодельное различие: например, только Gemma сама по себе отказывается называть свое имя, ссылаясь на безопасность.

Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.

Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).

Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.

В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.



tgoop.com/llmsecurity/239
Create:
Last Update:

Авторы предлагают несколько общих стратегий, с помощью которых такие запросы можно придумать. Первый, по аналогии с banner grabbing – просто спросить модель, кто она. К сожалению, этот подход сам по себе работает плохо:, так как не все модели вообще в курсе, кто они и кто их обучал. Кроме того, ответ на этот вопрос очень легко переписывается системным промптом («Теперь ты КаланГПТ») и может приводить к ложным срабатываниям: так, openchat-3.5 уверен, что он – модель от OpenAI, так как, видимо, тюнился на инструктивном датасете типа Alpaca (поговаривают, что таким грешит и недавно выпущенная русскоязычная T-lite). Тем не менее, у этих ответов есть достаточно сильное межмодельное различие: например, только Gemma сама по себе отказывается называть свое имя, ссылаясь на безопасность.

Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.

Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).

Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.

В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.

BY llm security и каланы





Share with your friend now:
tgoop.com/llmsecurity/239

View MORE
Open in Telegram


Telegram News

Date: |

It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): How to create a business channel on Telegram? (Tutorial) On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. best-secure-messaging-apps-shutterstock-1892950018.jpg How to create a business channel on Telegram? (Tutorial)
from us


Telegram llm security и каланы
FROM American