llm security и каланы@llmsecurity P.89

llm security и каланы

Baseline Defenses for Adversarial Attacks Against Aligned Language Models
Jain et al., 2023
Статья

Поиграли в атаки – и хватит! Начинаем читать про защиты. Сегодня смотрим на статью исследователей из Университета Мэриленда, посвященную базовым защитам от атак на языковые модели. В данном случае под атаками подразумевается именно джейлбрейки, причем в первую очередь те, которые генерируются автоматически, например с помощью Greedy Coordinate Gradient.

В первую очередь отмечается, что классические атаки типа adversarial examples для LLM провернуть нетривиально из-за дискретного характера текста (спасибо мультимодальным моделям, что снова можно прокидывать градиент на входную картинку!). Тем не менее, появляются методы, вроде того же GCG, которые позволяют использовать градиент вместе с дискретными методами, чтобы находить затравки,повышающие вероятность зловредного продолжения текста. Поскольку скорее всего любую заэлайненную модель можно джейлбрейнкуть, защита должна быть внешней.

arXiv.org

Baseline Defenses for Adversarial Attacks Against Aligned Language Models

As Large Language Models quickly become ubiquitous, it becomes critical to understand their security vulnerabilities. Recent work shows that text optimizers can produce jailbreaking prompts that...

www.tgoop.com/llmsecurity/89

145 viewsMar 13, 2024 at 20:30

tgoop.com/llmsecurity/89

Create: 2024-03-13
Last Update: 2025-07-06 10:25:34

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/89

Telegram News

Baseline Defenses for Adversarial Attacks Against Aligned Language Models