LLMSECURITY Telegram 332
Исследователи предлагают дизайн среды для работы агентов, состоящий из следующих компонентов:

1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.

В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).

По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).



tgoop.com/llmsecurity/332
Create:
Last Update:

Исследователи предлагают дизайн среды для работы агентов, состоящий из следующих компонентов:

1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.

В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).

По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).

BY llm security и каланы








Share with your friend now:
tgoop.com/llmsecurity/332

View MORE
Open in Telegram


Telegram News

Date: |

The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Click “Save” ; The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. A vandalised bank during the 2019 protest. File photo: May James/HKFP.
from us


Telegram llm security и каланы
FROM American