llm security и каланы@llmsecurity P.94

llm security и каланы

Если смотреть на параметры, которыми ограничены джейлбрейки, то в первую очередь таковым является объем вычислений. GCG требует кучу вычислений. Необходимость выглядеть «нормально» для людей (что важно для картинок) авторы ограничением не считают.

Первой защитой, которую рассматривают исследователи, является фильтр на перплексию. Вспоминая, как выглядят результаты GCG, это кажется достаточно очевидным, но при этом слишком заточенным под этот конкретный алгоритм решением. Суть такова: мы или рассматриваем общую перпрелксию промпта, или идем по нему окошком и рассматриваем перплексии кусков, попавших в него. Защита работает отлично, целиком предотвращая атаку. Более того, добавление в GCG задачи оптимизировать перплексию не помогает его обойти, что хорошо. Что плохо – конечно, доля ложных срабатываний в районе 10%, что делает защиту совершенно бесполезной на практике.

www.tgoop.com/llmsecurity/94

128 viewsMar 13, 2024 at 20:32

tgoop.com/llmsecurity/94

Create: 2024-03-13
Last Update: 2025-07-06 16:03:55

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/94

Telegram News

Если смотреть на параметры