tgoop.com/nn_for_science/2437
Last Update:
CircleGuard Benchmark
Солнце уже по-летнему припекало, когда мы с Денисом Шиловым (кофаундер White Circle) открыли по бутылочке сухого сидра и выбрались на крышу офиса Stripe. Денис написал мне за пару дней и предложил встретиться, пока он проезжает через Bay Area, и вот уже через полчаса после знакомства мы вовсю спорили, может ли одна guard‑модель одновременно быть умной, шустрой и устойчивой к джейлбрейкам.
Зачем вообще нужны guard‑модели?
Это телохранители больших языковых моделей (а точнее — компаний, которые стараются получать из этих моделей прибыль и не получать тонны судебных исков): они блокируют токсичное, криминальное и просто опасное. Но в реальном продакшене важны сразу три вещи:
1. Надёжно ловить вред,
2. Не тормозить чат,
3. Не давать себя обойти хитрыми перефразировками (они же jailbreaks).
Большинство существующих бенчмарков измеряют что-то одно, и команды часто сидят в тумане — какой именно фильтр ставить? CircleGuard Benchmark как раз и пытается этот туман развеять.
Что придумали ребята из White Circle:
• 17 категорий вреда — от киберпреступлений и оружия до детского насилия и джейлбрейков. Для каждой категории создали автоматические «маскировки», чтобы проверять устойчивость.
• Интегральный скор: точность × (1 – ошибки) × фактор скорости. Даже идеальный, но медленный фильтр не наберёт больше 0.7 балла — медленные модели вживую не выживают.
• Постоянный поиск новых джейлбрейков с помощью автогенерируемых атак, чтобы датасет всегда был актуальным.
Собственные модели White Circle уже обходят PromptGuard, ShieldGemma и даже официальный OpenAI Moderation по итоговому баллу. Лидерборд и исходники лежат на Hugging Face и GitHub — можно запустить свой фильтр и сразу увидеть, где он протекает.
Мы с Денисом договорились: как только выйдет новая версия бенча, устраиваем реванш на крыше — сидр берём ещё суше, погоду заказываем такую же. 😉
🔗 Ссылка на CircleGuard Benchmark
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2437