llm security и каланы@llmsecurity P.74

llm security и каланы

«Червь», по замыслу авторов, нацелен именно на экосистему LLM-агентов, которые связаны друг с другом. При этом в качестве объекта атаки они выбирают приложение, написанное ими же, которое умеет само по себе обрабатывать входящую почту, генерировать ответы, отвечать на них и форвардить письма.

Предполагаемый «червь» имеет следующие свойства:

1. Репликация: делается через prompt injection, который заставляет LLM на стороне приложения повторять ту часть входа из письма, которая является prompt injection’ом (Нолан, привет). Это и есть тот самый self-replicating prompt.
2. Распространение: может происходить через эксплуатацию логики приложения, завязанной на парсинг ввода, например, функции пересылки писем. Почему-то в этот же пункт попало то, что следовало бы назвать персистентностью: если у приложения есть RAG-модуль, в базу которого сохраняются письма, то пересылка этого письма может быть вызвана новым письмом в результате поиска по базе.
3. Вредоносная активность: крадет переписку, рассылает спам, отправляет друзьям и семье оскорбительные письма, содействует фишинговым атакам и так далее.
4. Zero-click-инфицирование: предполагается, что LLM-агент обрабатывает все письма без участия пользователя и не требует подтверждения для отправки трампистской пропаганды любимой бабушки, так что инфицирование и распространение происходит без ведома человека просто по факту получения письма (если вам кажется, что это не свойство «червя», а свойство созданного специально под этот «червь» приложения, то мне тоже так кажется).

www.tgoop.com/llmsecurity/74

116 viewsedited Mar 1, 2024 at 20:32

tgoop.com/llmsecurity/74

Create: 2024-03-01
Last Update: 2025-07-27 05:10:28

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/74

Telegram News

«Червь»