tgoop.com/llmsecurity/89
Last Update:
Baseline Defenses for Adversarial Attacks Against Aligned Language Models
Jain et al., 2023
Статья
Поиграли в атаки – и хватит! Начинаем читать про защиты. Сегодня смотрим на статью исследователей из Университета Мэриленда, посвященную базовым защитам от атак на языковые модели. В данном случае под атаками подразумевается именно джейлбрейки, причем в первую очередь те, которые генерируются автоматически, например с помощью Greedy Coordinate Gradient.
В первую очередь отмечается, что классические атаки типа adversarial examples для LLM провернуть нетривиально из-за дискретного характера текста (спасибо мультимодальным моделям, что снова можно прокидывать градиент на входную картинку!). Тем не менее, появляются методы, вроде того же GCG, которые позволяют использовать градиент вместе с дискретными методами, чтобы находить затравки,повышающие вероятность зловредного продолжения текста. Поскольку скорее всего любую заэлайненную модель можно джейлбрейнкуть, защита должна быть внешней.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/89