Агатов Борис Tech Магазин 4.0@agatov

Агатов Борис Tech Магазин 4.0

Защита от Метода непрямого взлома ИИ

#Взламываем и защищаем ИИ вместе.

Проблема в том, что большинство LLM отдают приоритет масштабу, собирая как можно больше данных, не проверяя достоверность источника. Это создает широкие возможности для манипуляций.

Пользователи Reddit успешно манипулировали различными LLM, чтобы те не рекомендовали их любимые рестораны и таким образом предотвращали скопления людей.

«Хотя эта техника относительно безобидна и потенциально даже смешна, она может иметь разрушительные последствия для генерации кода, если ее использовать для рекомендации преднамеренно вредоносного кода»

Злоумышленник может скрыть непрямую инъекцию подсказки в README или метаданных пакета, обманывая модель, заставляя ее рекомендовать или устанавливать что-то небезопасное.

Рекомендации по защите от взлома ИИ методом непрямой инъекции

📌  Очищайте контент перед его отправкой в LLM.

📌  Сообщите модели, что является входными данными, а что контекстом, и дайте ей указание не следовать командам из внешних данных.

📌  Отмечайте ненадежные источники, чтобы модели могли относиться к ним более осторожно.

📌  Ограничьте полномочия LLM, особенно если им разрешено выполнять такие действия, как выполнение кода или написание файлов.

📌  Отслеживайте результаты на предмет странного поведения и проверяйте свои системы, регулярно моделируя такие атаки.

Подробнее здесь

👍3

www.tgoop.com/agatov_tech/3805

1.03K viewsБорис Агатов, May 29 at 13:18

tgoop.com/agatov_tech/3805

Create: 2025-05-29
Last Update: 2025-07-09 14:51:15

Пользователи Reddit успешно манипулировали различными LLM, чтобы те не рекомендовали их любимые рестораны и таким образом предотвращали скопления людей.

«Хотя эта техника относительно безобидна и потенциально даже смешна, она может иметь разрушительные последствия для генерации кода, если ее использовать для рекомендации преднамеренно вредоносного кода»

Рекомендации по защите от взлома ИИ методом непрямой инъекции

📌  Очищайте контент перед его отправкой в LLM.

📌  Сообщите модели, что является входными данными, а что контекстом, и дайте ей указание не следовать командам из внешних данных.

📌  Отмечайте ненадежные источники, чтобы модели могли относиться к ним более осторожно.

📌  Ограничьте полномочия LLM, особенно если им разрешено выполнять такие действия, как выполнение кода или написание файлов.

📌  Отслеживайте результаты на предмет странного поведения и проверяйте свои системы, регулярно моделируя такие атаки.

Подробнее здесь

BY Агатов Борис Tech Магазин 4.0

Share with your friend now:
tgoop.com/agatov_tech/3805

Telegram News

Защита от Метода непрямого взлома ИИ