LLMSECURITY Telegram 387
Всего в статье рассматриваются три подхода:

1. Spotlighting via Delimiting: давайте вокруг данных, которые поступают извне, нагородим каких-нибудь разделителей и попросим LLM не исполнять инструкции изнутри, например, <<{{данные }}>>. Не сильно оригинально, описывалось, как признают сами исследователи, много раз, как в статьях, так и в популярных ресурсах. Очевидно, что работает, пока атакующий не разреверсит разделитель.

2. Spotlighting via DataMarking: давайте поменяем пробелы в недоверенном тексте на какой-нибудь хитрый символ, типа циркумфлекса: я^зловредная^инструкция, уведомив LLM, что такого ввода текст является недоверенным. По ощущениям должно слегка сводить модели, особенно более слабые, с ума и приводить к просадкам в качестве.

3. Spotlighting via Encoding: давайте все данные закодируем в какой-нибудь base64 и скажем, что все внутри base64 – недоверенное и не должно исполняться. Иронично, что обычно base64 используется наоборот для token smuggling’а. Требует мощной модели.



tgoop.com/llmsecurity/387
Create:
Last Update:

Всего в статье рассматриваются три подхода:

1. Spotlighting via Delimiting: давайте вокруг данных, которые поступают извне, нагородим каких-нибудь разделителей и попросим LLM не исполнять инструкции изнутри, например, <<{{данные }}>>. Не сильно оригинально, описывалось, как признают сами исследователи, много раз, как в статьях, так и в популярных ресурсах. Очевидно, что работает, пока атакующий не разреверсит разделитель.

2. Spotlighting via DataMarking: давайте поменяем пробелы в недоверенном тексте на какой-нибудь хитрый символ, типа циркумфлекса: я^зловредная^инструкция, уведомив LLM, что такого ввода текст является недоверенным. По ощущениям должно слегка сводить модели, особенно более слабые, с ума и приводить к просадкам в качестве.

3. Spotlighting via Encoding: давайте все данные закодируем в какой-нибудь base64 и скажем, что все внутри base64 – недоверенное и не должно исполняться. Иронично, что обычно base64 используется наоборот для token smuggling’а. Требует мощной модели.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/387

View MORE
Open in Telegram


Telegram News

Date: |

Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” 1What is Telegram Channels? Image: Telegram. How to build a private or public channel on Telegram?
from us


Telegram llm security и каланы
FROM American