tgoop.com/llmsecurity/74
Last Update:
«Червь», по замыслу авторов, нацелен именно на экосистему LLM-агентов, которые связаны друг с другом. При этом в качестве объекта атаки они выбирают приложение, написанное ими же, которое умеет само по себе обрабатывать входящую почту, генерировать ответы, отвечать на них и форвардить письма.
Предполагаемый «червь» имеет следующие свойства:
1. Репликация: делается через prompt injection, который заставляет LLM на стороне приложения повторять ту часть входа из письма, которая является prompt injection’ом (Нолан, привет). Это и есть тот самый self-replicating prompt.
2. Распространение: может происходить через эксплуатацию логики приложения, завязанной на парсинг ввода, например, функции пересылки писем. Почему-то в этот же пункт попало то, что следовало бы назвать персистентностью: если у приложения есть RAG-модуль, в базу которого сохраняются письма, то пересылка этого письма может быть вызвана новым письмом в результате поиска по базе.
3. Вредоносная активность: крадет переписку, рассылает спам, отправляет друзьям и семье оскорбительные письма, содействует фишинговым атакам и так далее.
4. Zero-click-инфицирование: предполагается, что LLM-агент обрабатывает все письма без участия пользователя и не требует подтверждения для отправки трампистской пропаганды любимой бабушки, так что инфицирование и распространение происходит без ведома человека просто по факту получения письма (если вам кажется, что это не свойство «червя», а свойство созданного специально под этот «червь» приложения, то мне тоже так кажется).
BY llm security и каланы
Share with your friend now:
tgoop.com/llmsecurity/74