LLMSECURITY Telegram 223
Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.



tgoop.com/llmsecurity/223
Create:
Last Update:

Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.

BY llm security и каланы








Share with your friend now:
tgoop.com/llmsecurity/223

View MORE
Open in Telegram


Telegram News

Date: |

Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. More>> “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group.
from us


Telegram llm security и каланы
FROM American