tgoop.com/soldatov_in_telegram/723
Last Update:
Promptware: в полку warezz прибавление
Совсем недавно мы рассуждали об атаках на агентские системы и вот снова, почти, о том же.
Исследование (прямая ссылка на PDF) показывает, что promptware - специально сконструированные вредоносные промты - представляет серьёзную угрозу для пользователей LLM-ассистентов (на примере Gemini от Google). Атаки используют непрямые инъекции промтов через письма, календарные приглашения и общие документы, что позволяет злоумышленникам нарушать конфиденциальность, целостность и доступность систем. Приведены примеры запуска атак через приглашения в календаре или письма с вредоносным промтом в заголовке, а для активации требуется минимальное взаимодействие с пользователем, например, невинный запрос "Какие у меня встречи?", т.е. практически Zero touch. Также авторы показали, что promtware позволяет осуществлять горизонтальные перемещение в скомпрометированной системе, выходя за пределы LLM-приложения.
Авторы продемонстрировали 14 сценариев атак против трёх версий Gemini (веб, мобильная, Google Assistant), которые классифицировали по пяти типам угроз:
- Кратковременное отравление контекста (Short-term Context Poisoning)
- Постоянное отравление памяти (Permanent Memory Poisoning)
- Неправильное использование инструментов (Tool Misuse)
- Автоматический вызов агентов (Automatic Agent Invocation)
- Автоматический вызов приложений (Automatic App Invocation)
в результате которых удалось реализовать спам, фишинг, утечку данных, видеозапись пользователя, управление умным домом (открытие окон, включение котла), в общем, все что угодно. По мнению авторов 73% угроз оцениваются как высококритические.
В статье также предложен фреймворк TARA (Threat Analysis and Risk Assessment) на основе стандарта ISO/SAE 21434 и предложена оценка рисков по классике - на основе вероятности сценария атаки и влияния\ущерба от него.
Среди методов противодействия упоминаются:
- Изоляция контекста между агентами
- Валидация ввода/вывода
- A/B-тестирование
- Подтверждение действий пользователем
- Обнаружение подозрительных артефактов (URL)
однако, как мы знаем, митигационные меры не избавляют от риска, но снижают его уровень до низкого или среднего.
Ну что можно сказать?!
1. Promptware — практичная и опасная угроза, требующая срочного внимания, возможно, это новая область для систем обнаружения: мы научились находить SQL-инъкции, пора повышать уровень
2. Пока не видно вала публикаций на эту тему, как будто, индустрия пока не дооцениват риск атак на LLM-системы, а вендоры ИБ пока не осознали перспективность этого рынка
3. Если смотреть предлагаемые меры защиты, то можно обнаружить сходство с классикой: валидация пользовательского ввода, сегментация\изоляция, минимум полномочий и т.п. Соответственно, все эти меры надо сразу интегрировать в приложения, ибо навесная безопасность работает плохо, а это открывает новое важной и перспективное направление - безопасная архитектура LLM-систем, похожие эксперты упоминались здесь .
#ml #vCISO
BY Солдатов в Телеграм
Share with your friend now:
tgoop.com/soldatov_in_telegram/723