LLMSECURITY Telegram 89
Baseline Defenses for Adversarial Attacks Against Aligned Language Models
Jain et al., 2023
Статья

Поиграли в атаки – и хватит! Начинаем читать про защиты. Сегодня смотрим на статью исследователей из Университета Мэриленда, посвященную базовым защитам от атак на языковые модели. В данном случае под атаками подразумевается именно джейлбрейки, причем в первую очередь те, которые генерируются автоматически, например с помощью Greedy Coordinate Gradient.

В первую очередь отмечается, что классические атаки типа adversarial examples для LLM провернуть нетривиально из-за дискретного характера текста (спасибо мультимодальным моделям, что снова можно прокидывать градиент на входную картинку!). Тем не менее, появляются методы, вроде того же GCG, которые позволяют использовать градиент вместе с дискретными методами, чтобы находить затравки,повышающие вероятность зловредного продолжения текста. Поскольку скорее всего любую заэлайненную модель можно джейлбрейнкуть, защита должна быть внешней.



tgoop.com/llmsecurity/89
Create:
Last Update:

Baseline Defenses for Adversarial Attacks Against Aligned Language Models
Jain et al., 2023
Статья

Поиграли в атаки – и хватит! Начинаем читать про защиты. Сегодня смотрим на статью исследователей из Университета Мэриленда, посвященную базовым защитам от атак на языковые модели. В данном случае под атаками подразумевается именно джейлбрейки, причем в первую очередь те, которые генерируются автоматически, например с помощью Greedy Coordinate Gradient.

В первую очередь отмечается, что классические атаки типа adversarial examples для LLM провернуть нетривиально из-за дискретного характера текста (спасибо мультимодальным моделям, что снова можно прокидывать градиент на входную картинку!). Тем не менее, появляются методы, вроде того же GCG, которые позволяют использовать градиент вместе с дискретными методами, чтобы находить затравки,повышающие вероятность зловредного продолжения текста. Поскольку скорее всего любую заэлайненную модель можно джейлбрейнкуть, защита должна быть внешней.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/89

View MORE
Open in Telegram


Telegram News

Date: |

More>> 3How to create a Telegram channel? Concise Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins.
from us


Telegram llm security и каланы
FROM American