LLMSECURITY Telegram 230
Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.

Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.



tgoop.com/llmsecurity/230
Create:
Last Update:

Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.

Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/230

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc.
from us


Telegram llm security и каланы
FROM American