Агатов Борис Tech Магазин 4.0@agatov

Агатов Борис Tech Магазин 4.0

Метод непрямого взлома ИИ

#Взламываем и защищаем ИИ вместе.

Прямой – взлом – это когда вы даёте промпт, который сломает защитные барьеры в ИИ (LLM), но защита крепчает и сделать это всё сложнее и сложнее, я есть более эффективный способ - "непрямая инъекция"

Я просто балдею от открывшихся возможностей и появления новых сущностей. Ну, кто бы мог подумать, что надо защищаться от взлома через бота. Вот вам и новая профессия. Это не промптолог, которую и профессией-то стыдно назвать. Тут всё солидно - специалист по ИИ безопасности.

Но можно ломать ИИ через внешние источники, которым он «доверяет» больше, чем вашим запросам. Всё как у людей, если сказали по телевизору, то значит это, точно, правда. Если ИИ получил вредоносную инструкцию из внешнего источника: письмо, сайт, комментарии, то у него притупляется бдительность.

📌 1. Что такое косвенные атаки через внедрение подсказок (Indirect Prompt Injection)?

Косвенные атаки через внедрение подсказок представляют собой метод, при котором вредоносные инструкции встраиваются во внешние источники данных, такие как документы, веб-страницы или электронные письма. Когда большая языковая модель (LLM) обрабатывает эти данные, она может интерпретировать встроенные инструкции как действительные команды пользователя, что приводит к нежелательным действиям, таким как утечка данных или распространение дезинформации.

📌 2. Почему эти атаки эффективны?

•  LLM не умеют различать информационный контекст и исполняемые инструкции, особенно когда они встроены во внешние данные.

•  Модели доверяют внешним источникам, таким как пользовательский контент, веб-сайты и комментарии, что делает их уязвимыми для скрытых атак.

•  Атаки происходят без прямого взаимодействия с пользователем, что делает их трудными для обнаружения и отслеживания.

📌 3. Пример: атака через электронную почту

В корпоративной среде, где LLM обучаются на электронных письмах, злоумышленник может отправить достаточное количество писем с вредоносным содержимым, чтобы изменить поведение модели. Даже если система блокирует вредоносные письма, LLM может получить доступ к ним при формировании ответа пользователю, что позволяет атакующему изменить ожидаемое поведение модели.

📌 4. Почему защита затруднена

Косвенные атаки обходят традиционные меры безопасности, поскольку они внедряются через доверенные каналы контента, которые LLM анализируют. Загрузки вредоносного содержимого происходят при обработке данных моделью, что делает обнаружение особенно сложным без специализированных инструментов безопасности.

Подробнее здесь.

🔥3👏2

www.tgoop.com/agatov_tech/3803

1.04K viewsБорис Агатов, May 28 at 13:06

tgoop.com/agatov_tech/3803

Create: 2025-05-28
Last Update: 2025-07-12 17:52:21

Я просто балдею от открывшихся возможностей и появления новых сущностей. Ну, кто бы мог подумать, что надо защищаться от взлома через бота. Вот вам и новая профессия. Это не промптолог, которую и профессией-то стыдно назвать. Тут всё солидно - специалист по ИИ безопасности.

📌 1. Что такое косвенные атаки через внедрение подсказок (Indirect Prompt Injection)?

Косвенные атаки через внедрение подсказок представляют собой метод, при котором вредоносные инструкции встраиваются во внешние источники данных, такие как документы, веб-страницы или электронные письма. Когда большая языковая модель (LLM) обрабатывает эти данные, она может интерпретировать встроенные инструкции как действительные команды пользователя, что приводит к нежелательным действиям, таким как утечка данных или распространение дезинформации.

📌 2. Почему эти атаки эффективны?

•  LLM не умеют различать информационный контекст и исполняемые инструкции, особенно когда они встроены во внешние данные.

•  Модели доверяют внешним источникам, таким как пользовательский контент, веб-сайты и комментарии, что делает их уязвимыми для скрытых атак.

•  Атаки происходят без прямого взаимодействия с пользователем, что делает их трудными для обнаружения и отслеживания.

📌 3. Пример: атака через электронную почту

В корпоративной среде, где LLM обучаются на электронных письмах, злоумышленник может отправить достаточное количество писем с вредоносным содержимым, чтобы изменить поведение модели. Даже если система блокирует вредоносные письма, LLM может получить доступ к ним при формировании ответа пользователю, что позволяет атакующему изменить ожидаемое поведение модели.

📌 4. Почему защита затруднена

Косвенные атаки обходят традиционные меры безопасности, поскольку они внедряются через доверенные каналы контента, которые LLM анализируют. Загрузки вредоносного содержимого происходят при обработке данных моделью, что делает обнаружение особенно сложным без специализированных инструментов безопасности.

Подробнее здесь.

BY Агатов Борис Tech Магазин 4.0

Share with your friend now:
tgoop.com/agatov_tech/3803

Telegram News

Метод непрямого взлома ИИ