llm security и каланы@llmsecurity P.125

llm security и каланы

Тестируем это все дело на AdvBench с разными видами джейлбрейков (GCG, AutoDAN, PAIR, TAP, Base64 и Low-Resource Language) и сравниваем с разными другими защитами (оценка перплексии, SmoothLLM, EraseCheck, Self-Reminder). Предлагаемый исследователями метод, разумеется, оказывается самым классным, давая самый низкий FPR при максимальном уровне детектирования. К сожалению, как мы помним, за все нужно платить, в случае нашего алгоритма – сэмплированием, которое мы повторяем несколько раз, если быть точным – то мы делаем N сэмплирований и к каждому применяем P пертурбаций, получая стоимость защиты в N*(P+1). В частности, данные результаты получены при N=P=10, причем если P увеличить до 20 или даже 110, то результаты могли бы быть и получше.

www.tgoop.com/llmsecurity/124

119 viewsApr 21, 2024 at 09:36

tgoop.com/llmsecurity/125

Create: 2024-04-21
Last Update: 2025-07-06 11:05:46

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/125

Telegram News

Тестируем это все дело на AdvBench с разными видами джейлбрейков (GCG