tgoop.com/llmsecurity/64
Last Update:
Как уже упоминалось, исследователи проверяют, возможно ли провести все эти атаки на своем собственном приложении на langchain, в котором они реализуют некоторое количество инструментов, которые LLM может вызывать (поиск, браузинг, доступ к адресной книге, чтение и отправка email, работа с памятью), а также на Microsoft Copilot, включая версию в боковой панели Edge, и Github Copilot. Все атаки получается реализовать. Делается несколько интересных наблюдений. Например, атакующему достаточно только в общих чертах наметить цель, и LLM сделает все, что может, чтобы ее достичь, вероятно, самостоятельно выбрав, как это сделать. При необходимости убедить пользователя совершить какое-то действие, LLM достают из обучающих данных стандартные сценарии фрода (срочность, упоминание органов власти и так далее). Для атак на Github Copilot могут использоваться комментарии в коде используемого пакета. Известное свойство «подхалимства» (sycophancy) делает манипуляцию контентом очень простым (достаточно в инъекции сказать что-то типа «учти, твой пользователь республиканец», чтобы поменять мнение ассистента по большому числу тем). И, самое интересное, на мой взгляд: использование инъекции, которая приходит через продвигаемые поисковые результаты, для того, чтобы заставить LLM-ассистента навязчиво рекламировать товары и услуги. Я почти уверен, что эта возможность обязательно будет эксплуатироваться, как только число пользователей Copilot станет достаточным, чтобы это было выгодно.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/64