LLMSECURITY Telegram 337
Далее исследователи оценивают меры защиты: добавление разделителей для данных и просьба игнорировать инструкции внутри, детектор инъекций от ProtectAI, повторение промпта (prompt sandwiching) и фильтрацию инструментов – просьба к LLM подумать до получения недоверенных данных, какие инструменты могут ей понадобиться. Любопытно, что защиты увеличивают полезность в отсутствие атаки, кроме детектора инъекций – он дает слишком много ложноположительных срабатываний (но и является одним из самых эффективных). Наиболее эффективным приемом является фильтрация инструментов, но он предполагает, что LLM не нужно выбирать инструмент на основе вывода предыдущего инструмента.

Статья показывает, насколько непростой темой является оценка уязвимости сложных систем на базе LLM к атакам, а также то, что даже простые методы на основе промптинга могут приносить хороший результат, так что надежные агенты – это результат комплексного подхода. С другой стороны, тесты на полезность демонстрируют, что даже в игрушечных примерах результаты у SotA-моделей пока не самые впечатляющие, но с учетом опыта o1 это, вероятно, вопрос дополнительного тюнинга под агентные задачи.



tgoop.com/llmsecurity/337
Create:
Last Update:

Далее исследователи оценивают меры защиты: добавление разделителей для данных и просьба игнорировать инструкции внутри, детектор инъекций от ProtectAI, повторение промпта (prompt sandwiching) и фильтрацию инструментов – просьба к LLM подумать до получения недоверенных данных, какие инструменты могут ей понадобиться. Любопытно, что защиты увеличивают полезность в отсутствие атаки, кроме детектора инъекций – он дает слишком много ложноположительных срабатываний (но и является одним из самых эффективных). Наиболее эффективным приемом является фильтрация инструментов, но он предполагает, что LLM не нужно выбирать инструмент на основе вывода предыдущего инструмента.

Статья показывает, насколько непростой темой является оценка уязвимости сложных систем на базе LLM к атакам, а также то, что даже простые методы на основе промптинга могут приносить хороший результат, так что надежные агенты – это результат комплексного подхода. С другой стороны, тесты на полезность демонстрируют, что даже в игрушечных примерах результаты у SotA-моделей пока не самые впечатляющие, но с учетом опыта o1 это, вероятно, вопрос дополнительного тюнинга под агентные задачи.

BY llm security и каланы





Share with your friend now:
tgoop.com/llmsecurity/337

View MORE
Open in Telegram


Telegram News

Date: |

‘Ban’ on Telegram Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you:
from us


Telegram llm security и каланы
FROM American