LLMSECURITY Telegram 590
Invitation Is All You Need! TARA for Targeted Promptware Attack Against Gemini-Powered Assistants
Nassi et al., 2025
Статья, сайт

Попалась любопытная работа израильских исследователей (это, кстати, те же ребята, что назвали инъекцию в симулированный почтовый клиент Morris II, представленная на Blackhat, про непрямые промпт-инъекции в андроидовском ассистенте Gemini, которые были актуальны в феврале этого года. В статье куча всякой скукоты типа специального фреймворка оценки рисков и попытки продвинуть придуманный ими термин promptware, но главное то, что они научились с помощью приглашения в календарь выключать пользователю свет 🔪

Суть атаки проста. Пользователю отправляется приглашение в календарь. В приглашении содержится промпт-инъекция, которая просит у Gemini выполнить определенную инструкцию при несложном условии: например, если пользователь скажет «спасибо» или использует слово длиннее двух букв. Чтобы цепочка сработала, пользователь должен попросить у ассистента список ближайших задач в календаре.

Используя такую нехитрую технику, исследователи заставляют ассистента:

1. Генерировать оскорбительные тексты, надоедать спам-ссылками с рекламой или фишингом.
2. Отравление долгосрочной памяти, приводящее к неверным ответам.
3. Атаки на агента, включая удаление случайных встреч из календаря.
4. Атаки на других агентов. Ассистент состоит из агента-оркестратора и узконаправленных агентов, типа агента для календаря. Поскольку инъекция попадает в контекст оркестратора, исследователям удалось дать команды агенту Google Home включить и выключить свет, открыть окна и включить бойлер. Эксплуатация агента Utilities позволила им скачать на смартфон файл (раскрыв геолокацию пользователя), запустить встречу в Zoom и вытащить через браузер названия встреч, содержание писем и другую информацию (закодировав их в URL).

В качестве противодействия таким атакам исследовали рекомендуют ограничивать возможности межагентного взаимодействия, последовательного запуска многих инструментов (то есть вещи, которые делают агентов прикольными), а также использовать гардрейлы и Control Flow Integrity (типа CaMeL). Из любопытного: бросается в глаза простота тех промпт-инъекций, которыми пользовались исследователи, что несколько пугает в сочетании с простотой киллчейна. Кажется, что пока давать LLM-инструментам, которые могут случайно снести вам Windows, контроль над физическими системами – будь то роботы или лампочки – пока рано.
🦄33👍2🥰1



tgoop.com/llmsecurity/590
Create:
Last Update:

Invitation Is All You Need! TARA for Targeted Promptware Attack Against Gemini-Powered Assistants
Nassi et al., 2025
Статья, сайт

Попалась любопытная работа израильских исследователей (это, кстати, те же ребята, что назвали инъекцию в симулированный почтовый клиент Morris II, представленная на Blackhat, про непрямые промпт-инъекции в андроидовском ассистенте Gemini, которые были актуальны в феврале этого года. В статье куча всякой скукоты типа специального фреймворка оценки рисков и попытки продвинуть придуманный ими термин promptware, но главное то, что они научились с помощью приглашения в календарь выключать пользователю свет 🔪

Суть атаки проста. Пользователю отправляется приглашение в календарь. В приглашении содержится промпт-инъекция, которая просит у Gemini выполнить определенную инструкцию при несложном условии: например, если пользователь скажет «спасибо» или использует слово длиннее двух букв. Чтобы цепочка сработала, пользователь должен попросить у ассистента список ближайших задач в календаре.

Используя такую нехитрую технику, исследователи заставляют ассистента:

1. Генерировать оскорбительные тексты, надоедать спам-ссылками с рекламой или фишингом.
2. Отравление долгосрочной памяти, приводящее к неверным ответам.
3. Атаки на агента, включая удаление случайных встреч из календаря.
4. Атаки на других агентов. Ассистент состоит из агента-оркестратора и узконаправленных агентов, типа агента для календаря. Поскольку инъекция попадает в контекст оркестратора, исследователям удалось дать команды агенту Google Home включить и выключить свет, открыть окна и включить бойлер. Эксплуатация агента Utilities позволила им скачать на смартфон файл (раскрыв геолокацию пользователя), запустить встречу в Zoom и вытащить через браузер названия встреч, содержание писем и другую информацию (закодировав их в URL).

В качестве противодействия таким атакам исследовали рекомендуют ограничивать возможности межагентного взаимодействия, последовательного запуска многих инструментов (то есть вещи, которые делают агентов прикольными), а также использовать гардрейлы и Control Flow Integrity (типа CaMeL). Из любопытного: бросается в глаза простота тех промпт-инъекций, которыми пользовались исследователи, что несколько пугает в сочетании с простотой киллчейна. Кажется, что пока давать LLM-инструментам, которые могут случайно снести вам Windows, контроль над физическими системами – будь то роботы или лампочки – пока рано.

BY llm security и каланы








Share with your friend now:
tgoop.com/llmsecurity/590

View MORE
Open in Telegram


Telegram News

Date: |

While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Select “New Channel” Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Write your hashtags in the language of your target audience. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator.
from us


Telegram llm security и каланы
FROM American