LLMSECURITY Telegram 228
Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.

Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.



tgoop.com/llmsecurity/228
Create:
Last Update:

Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.

Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/228

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: How to Create a Private or Public Channel on Telegram? Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first.
from us


Telegram llm security и каланы
FROM American