AGATOV_TECH Telegram 3803
Метод непрямого взлома ИИ

#Взламываем и защищаем ИИ вместе.

Прямой – взлом – это когда вы даёте промпт, который сломает защитные барьеры в ИИ (LLM), но защита крепчает и сделать это всё сложнее и сложнее, я есть более эффективный способ - "непрямая инъекция"

Я просто балдею от открывшихся возможностей и появления новых сущностей. Ну, кто бы мог подумать, что надо защищаться от взлома через бота. Вот вам и новая профессия. Это не промптолог, которую и профессией-то стыдно назвать. Тут всё солидно - специалист по ИИ безопасности.


Но можно ломать ИИ через внешние источники, которым он «доверяет» больше, чем вашим запросам. Всё как у людей, если сказали по телевизору, то значит это, точно, правда. Если ИИ получил вредоносную инструкцию из внешнего источника: письмо, сайт, комментарии, то у него притупляется бдительность.

📌 1. Что такое косвенные атаки через внедрение подсказок (Indirect Prompt Injection)?

Косвенные атаки через внедрение подсказок представляют собой метод, при котором вредоносные инструкции встраиваются во внешние источники данных, такие как документы, веб-страницы или электронные письма. Когда большая языковая модель (LLM) обрабатывает эти данные, она может интерпретировать встроенные инструкции как действительные команды пользователя, что приводит к нежелательным действиям, таким как утечка данных или распространение дезинформации.

📌 2. Почему эти атаки эффективны?

• LLM не умеют различать информационный контекст и исполняемые инструкции, особенно когда они встроены во внешние данные.

• Модели доверяют внешним источникам, таким как пользовательский контент, веб-сайты и комментарии, что делает их уязвимыми для скрытых атак.

• Атаки происходят без прямого взаимодействия с пользователем, что делает их трудными для обнаружения и отслеживания.

📌 3. Пример: атака через электронную почту

В корпоративной среде, где LLM обучаются на электронных письмах, злоумышленник может отправить достаточное количество писем с вредоносным содержимым, чтобы изменить поведение модели. Даже если система блокирует вредоносные письма, LLM может получить доступ к ним при формировании ответа пользователю, что позволяет атакующему изменить ожидаемое поведение модели.

📌 4. Почему защита затруднена

Косвенные атаки обходят традиционные меры безопасности, поскольку они внедряются через доверенные каналы контента, которые LLM анализируют. Загрузки вредоносного содержимого происходят при обработке данных моделью, что делает обнаружение особенно сложным без специализированных инструментов безопасности.




Подробнее здесь.
🔥3👏2



tgoop.com/agatov_tech/3803
Create:
Last Update:

Метод непрямого взлома ИИ

#Взламываем и защищаем ИИ вместе.

Прямой – взлом – это когда вы даёте промпт, который сломает защитные барьеры в ИИ (LLM), но защита крепчает и сделать это всё сложнее и сложнее, я есть более эффективный способ - "непрямая инъекция"

Я просто балдею от открывшихся возможностей и появления новых сущностей. Ну, кто бы мог подумать, что надо защищаться от взлома через бота. Вот вам и новая профессия. Это не промптолог, которую и профессией-то стыдно назвать. Тут всё солидно - специалист по ИИ безопасности.


Но можно ломать ИИ через внешние источники, которым он «доверяет» больше, чем вашим запросам. Всё как у людей, если сказали по телевизору, то значит это, точно, правда. Если ИИ получил вредоносную инструкцию из внешнего источника: письмо, сайт, комментарии, то у него притупляется бдительность.

📌 1. Что такое косвенные атаки через внедрение подсказок (Indirect Prompt Injection)?

Косвенные атаки через внедрение подсказок представляют собой метод, при котором вредоносные инструкции встраиваются во внешние источники данных, такие как документы, веб-страницы или электронные письма. Когда большая языковая модель (LLM) обрабатывает эти данные, она может интерпретировать встроенные инструкции как действительные команды пользователя, что приводит к нежелательным действиям, таким как утечка данных или распространение дезинформации.

📌 2. Почему эти атаки эффективны?

• LLM не умеют различать информационный контекст и исполняемые инструкции, особенно когда они встроены во внешние данные.

• Модели доверяют внешним источникам, таким как пользовательский контент, веб-сайты и комментарии, что делает их уязвимыми для скрытых атак.

• Атаки происходят без прямого взаимодействия с пользователем, что делает их трудными для обнаружения и отслеживания.

📌 3. Пример: атака через электронную почту

В корпоративной среде, где LLM обучаются на электронных письмах, злоумышленник может отправить достаточное количество писем с вредоносным содержимым, чтобы изменить поведение модели. Даже если система блокирует вредоносные письма, LLM может получить доступ к ним при формировании ответа пользователю, что позволяет атакующему изменить ожидаемое поведение модели.

📌 4. Почему защита затруднена

Косвенные атаки обходят традиционные меры безопасности, поскольку они внедряются через доверенные каналы контента, которые LLM анализируют. Загрузки вредоносного содержимого происходят при обработке данных моделью, что делает обнаружение особенно сложным без специализированных инструментов безопасности.




Подробнее здесь.

BY Агатов Борис Tech Магазин 4.0


Share with your friend now:
tgoop.com/agatov_tech/3803

View MORE
Open in Telegram


Telegram News

Date: |

3How to create a Telegram channel? The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. Activate up to 20 bots How to Create a Private or Public Channel on Telegram? Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from us


Telegram Агатов Борис Tech Магазин 4.0
FROM American