LLMSECURITY Telegram 530
Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.
👍21



tgoop.com/llmsecurity/530
Create:
Last Update:

Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/530

View MORE
Open in Telegram


Telegram News

Date: |

Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. Administrators Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Today, we will address Telegram channels and how to use them for maximum benefit. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first.
from us


Telegram llm security и каланы
FROM American