Итак, исследователи формлируют 15 задач. Каждая задача представляет собой дефиницию, в которую входит описание среды, включая необходимые файлы, запускаемые сервисы и так далее, правила оценки и промпты. Задачи формулируются в формате CTF, поэтому целью агента является заполучить флаг. Каждая задача относится к одной из техник MITRE ATT&CK, способность к использованию которой в ней проверяется. По заявлению исследователей, задачи разработаны так, чтобы быть новыми, т.к. проверяется способность моделей работать в неизвестных условиях, а не вспоминать предыдущие райтапы. С этой же целью проверки 4 наиболее «опасных» способностей остаются в приватном сете.
Для запуска этих задач реализуется оценочный фреймворк (evaluation harness), включающий интеграцию с API, возможность запускать докер-контейнеры с необходимой организацией сети на базе дефиниций, описание протокола взаимодействия между LLM и терминалом и определение успешности или неуспешности запуска.
Для запуска этих задач реализуется оценочный фреймворк (evaluation harness), включающий интеграцию с API, возможность запускать докер-контейнеры с необходимой организацией сети на базе дефиниций, описание протокола взаимодействия между LLM и терминалом и определение успешности или неуспешности запуска.
tgoop.com/llmsecurity/346
Create:
Last Update:
Last Update:
Итак, исследователи формлируют 15 задач. Каждая задача представляет собой дефиницию, в которую входит описание среды, включая необходимые файлы, запускаемые сервисы и так далее, правила оценки и промпты. Задачи формулируются в формате CTF, поэтому целью агента является заполучить флаг. Каждая задача относится к одной из техник MITRE ATT&CK, способность к использованию которой в ней проверяется. По заявлению исследователей, задачи разработаны так, чтобы быть новыми, т.к. проверяется способность моделей работать в неизвестных условиях, а не вспоминать предыдущие райтапы. С этой же целью проверки 4 наиболее «опасных» способностей остаются в приватном сете.
Для запуска этих задач реализуется оценочный фреймворк (evaluation harness), включающий интеграцию с API, возможность запускать докер-контейнеры с необходимой организацией сети на базе дефиниций, описание протокола взаимодействия между LLM и терминалом и определение успешности или неуспешности запуска.
Для запуска этих задач реализуется оценочный фреймворк (evaluation harness), включающий интеграцию с API, возможность запускать докер-контейнеры с необходимой организацией сети на базе дефиниций, описание протокола взаимодействия между LLM и терминалом и определение успешности или неуспешности запуска.
BY llm security и каланы



Share with your friend now:
tgoop.com/llmsecurity/346