AGATOV_TECH Telegram 3805
Защита от Метода непрямого взлома ИИ

#Взламываем и защищаем ИИ вместе.

Проблема в том, что большинство LLM отдают приоритет масштабу, собирая как можно больше данных, не проверяя достоверность источника. Это создает широкие возможности для манипуляций.

Пользователи Reddit успешно манипулировали различными LLM, чтобы те не рекомендовали их любимые рестораны и таким образом предотвращали скопления людей.

«Хотя эта техника относительно безобидна и потенциально даже смешна, она может иметь разрушительные последствия для генерации кода, если ее использовать для рекомендации преднамеренно вредоносного кода»


Злоумышленник может скрыть непрямую инъекцию подсказки в README или метаданных пакета, обманывая модель, заставляя ее рекомендовать или устанавливать что-то небезопасное.

Рекомендации по защите от взлома ИИ методом непрямой инъекции

📌 Очищайте контент перед его отправкой в LLM.

📌 Сообщите модели, что является входными данными, а что контекстом, и дайте ей указание не следовать командам из внешних данных.

📌 Отмечайте ненадежные источники, чтобы модели могли относиться к ним более осторожно.

📌 Ограничьте полномочия LLM, особенно если им разрешено выполнять такие действия, как выполнение кода или написание файлов.

📌 Отслеживайте результаты на предмет странного поведения и проверяйте свои системы, регулярно моделируя такие атаки.


Подробнее здесь
👍3



tgoop.com/agatov_tech/3805
Create:
Last Update:

Защита от Метода непрямого взлома ИИ

#Взламываем и защищаем ИИ вместе.

Проблема в том, что большинство LLM отдают приоритет масштабу, собирая как можно больше данных, не проверяя достоверность источника. Это создает широкие возможности для манипуляций.

Пользователи Reddit успешно манипулировали различными LLM, чтобы те не рекомендовали их любимые рестораны и таким образом предотвращали скопления людей.

«Хотя эта техника относительно безобидна и потенциально даже смешна, она может иметь разрушительные последствия для генерации кода, если ее использовать для рекомендации преднамеренно вредоносного кода»


Злоумышленник может скрыть непрямую инъекцию подсказки в README или метаданных пакета, обманывая модель, заставляя ее рекомендовать или устанавливать что-то небезопасное.

Рекомендации по защите от взлома ИИ методом непрямой инъекции

📌 Очищайте контент перед его отправкой в LLM.

📌 Сообщите модели, что является входными данными, а что контекстом, и дайте ей указание не следовать командам из внешних данных.

📌 Отмечайте ненадежные источники, чтобы модели могли относиться к ним более осторожно.

📌 Ограничьте полномочия LLM, особенно если им разрешено выполнять такие действия, как выполнение кода или написание файлов.

📌 Отслеживайте результаты на предмет странного поведения и проверяйте свои системы, регулярно моделируя такие атаки.


Подробнее здесь

BY Агатов Борис Tech Магазин 4.0


Share with your friend now:
tgoop.com/agatov_tech/3805

View MORE
Open in Telegram


Telegram News

Date: |

Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. “[The defendant] could not shift his criminal liability,” Hui said. best-secure-messaging-apps-shutterstock-1892950018.jpg Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture.
from us


Telegram Агатов Борис Tech Магазин 4.0
FROM American