LLMSECURITY Telegram 329
Исследователи предлагают дизайн среды для работы агентов, состоящий из следующих компонентов:

1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.

В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).

По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).



tgoop.com/llmsecurity/329
Create:
Last Update:

Исследователи предлагают дизайн среды для работы агентов, состоящий из следующих компонентов:

1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.

В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).

По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).

BY llm security и каланы








Share with your friend now:
tgoop.com/llmsecurity/329

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. How to Create a Private or Public Channel on Telegram? Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment.
from us


Telegram llm security и каланы
FROM American