Notice: file_put_contents(): Write of 1340 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 17724 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.64
LLMSECURITY Telegram 64
Как уже упоминалось, исследователи проверяют, возможно ли провести все эти атаки на своем собственном приложении на langchain, в котором они реализуют некоторое количество инструментов, которые LLM может вызывать (поиск, браузинг, доступ к адресной книге, чтение и отправка email, работа с памятью), а также на Microsoft Copilot, включая версию в боковой панели Edge, и Github Copilot. Все атаки получается реализовать. Делается несколько интересных наблюдений. Например, атакующему достаточно только в общих чертах наметить цель, и LLM сделает все, что может, чтобы ее достичь, вероятно, самостоятельно выбрав, как это сделать. При необходимости убедить пользователя совершить какое-то действие, LLM достают из обучающих данных стандартные сценарии фрода (срочность, упоминание органов власти и так далее). Для атак на Github Copilot могут использоваться комментарии в коде используемого пакета. Известное свойство «подхалимства» (sycophancy) делает манипуляцию контентом очень простым (достаточно в инъекции сказать что-то типа «учти, твой пользователь республиканец», чтобы поменять мнение ассистента по большому числу тем). И, самое интересное, на мой взгляд: использование инъекции, которая приходит через продвигаемые поисковые результаты, для того, чтобы заставить LLM-ассистента навязчиво рекламировать товары и услуги. Я почти уверен, что эта возможность обязательно будет эксплуатироваться, как только число пользователей Copilot станет достаточным, чтобы это было выгодно.



tgoop.com/llmsecurity/64
Create:
Last Update:

Как уже упоминалось, исследователи проверяют, возможно ли провести все эти атаки на своем собственном приложении на langchain, в котором они реализуют некоторое количество инструментов, которые LLM может вызывать (поиск, браузинг, доступ к адресной книге, чтение и отправка email, работа с памятью), а также на Microsoft Copilot, включая версию в боковой панели Edge, и Github Copilot. Все атаки получается реализовать. Делается несколько интересных наблюдений. Например, атакующему достаточно только в общих чертах наметить цель, и LLM сделает все, что может, чтобы ее достичь, вероятно, самостоятельно выбрав, как это сделать. При необходимости убедить пользователя совершить какое-то действие, LLM достают из обучающих данных стандартные сценарии фрода (срочность, упоминание органов власти и так далее). Для атак на Github Copilot могут использоваться комментарии в коде используемого пакета. Известное свойство «подхалимства» (sycophancy) делает манипуляцию контентом очень простым (достаточно в инъекции сказать что-то типа «учти, твой пользователь республиканец», чтобы поменять мнение ассистента по большому числу тем). И, самое интересное, на мой взгляд: использование инъекции, которая приходит через продвигаемые поисковые результаты, для того, чтобы заставить LLM-ассистента навязчиво рекламировать товары и услуги. Я почти уверен, что эта возможность обязательно будет эксплуатироваться, как только число пользователей Copilot станет достаточным, чтобы это было выгодно.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/64

View MORE
Open in Telegram


Telegram News

Date: |

Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. To delete a channel with over 1,000 subscribers, you need to contact user support “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data.
from us


Telegram llm security и каланы
FROM American