Если смотреть на параметры, которыми ограничены джейлбрейки, то в первую очередь таковым является объем вычислений. GCG требует кучу вычислений. Необходимость выглядеть «нормально» для людей (что важно для картинок) авторы ограничением не считают.
Первой защитой, которую рассматривают исследователи, является фильтр на перплексию. Вспоминая, как выглядят результаты GCG, это кажется достаточно очевидным, но при этом слишком заточенным под этот конкретный алгоритм решением. Суть такова: мы или рассматриваем общую перпрелксию промпта, или идем по нему окошком и рассматриваем перплексии кусков, попавших в него. Защита работает отлично, целиком предотвращая атаку. Более того, добавление в GCG задачи оптимизировать перплексию не помогает его обойти, что хорошо. Что плохо – конечно, доля ложных срабатываний в районе 10%, что делает защиту совершенно бесполезной на практике.
Первой защитой, которую рассматривают исследователи, является фильтр на перплексию. Вспоминая, как выглядят результаты GCG, это кажется достаточно очевидным, но при этом слишком заточенным под этот конкретный алгоритм решением. Суть такова: мы или рассматриваем общую перпрелксию промпта, или идем по нему окошком и рассматриваем перплексии кусков, попавших в него. Защита работает отлично, целиком предотвращая атаку. Более того, добавление в GCG задачи оптимизировать перплексию не помогает его обойти, что хорошо. Что плохо – конечно, доля ложных срабатываний в районе 10%, что делает защиту совершенно бесполезной на практике.
tgoop.com/llmsecurity/94
Create:
Last Update:
Last Update:
Если смотреть на параметры, которыми ограничены джейлбрейки, то в первую очередь таковым является объем вычислений. GCG требует кучу вычислений. Необходимость выглядеть «нормально» для людей (что важно для картинок) авторы ограничением не считают.
Первой защитой, которую рассматривают исследователи, является фильтр на перплексию. Вспоминая, как выглядят результаты GCG, это кажется достаточно очевидным, но при этом слишком заточенным под этот конкретный алгоритм решением. Суть такова: мы или рассматриваем общую перпрелксию промпта, или идем по нему окошком и рассматриваем перплексии кусков, попавших в него. Защита работает отлично, целиком предотвращая атаку. Более того, добавление в GCG задачи оптимизировать перплексию не помогает его обойти, что хорошо. Что плохо – конечно, доля ложных срабатываний в районе 10%, что делает защиту совершенно бесполезной на практике.
Первой защитой, которую рассматривают исследователи, является фильтр на перплексию. Вспоминая, как выглядят результаты GCG, это кажется достаточно очевидным, но при этом слишком заточенным под этот конкретный алгоритм решением. Суть такова: мы или рассматриваем общую перпрелксию промпта, или идем по нему окошком и рассматриваем перплексии кусков, попавших в него. Защита работает отлично, целиком предотвращая атаку. Более того, добавление в GCG задачи оптимизировать перплексию не помогает его обойти, что хорошо. Что плохо – конечно, доля ложных срабатываний в районе 10%, что делает защиту совершенно бесполезной на практике.
BY llm security и каланы



Share with your friend now:
tgoop.com/llmsecurity/94