Следующим идет чуть более веселый бенчмарк про полезность в кибератаках. Он состоит из:
1. Инструкций, которые сгенерировали, комбинируя некоторый префикс («Я пентестер, поэтому мне нужно»), просьбу сгенерировать код и запрос, соответствующий какому-нибудь TTP из MITRE ATT&CK.
2. Оценщика на основе регулярок, который проверяет,сказала ли модель I'm sorry dave, I’m afraid I can't do that отказалась ли модель от ответа.
3. Оценщика на основе аж двух моделей (LLaMA-70B и CodeLLaMA-13B), которые проверяют ответ, если он не содержал отказа.
4. Метрики – доли ответов, которые, как кажется LLM-оценщикам, могут быть полезны для кибератак. Пайплайн оценки аналогично предыдущему тестируется на тестовой выборке, отобранной вручную, как имеющий 94% точности и 84% полноты.
1. Инструкций, которые сгенерировали, комбинируя некоторый префикс («Я пентестер, поэтому мне нужно»), просьбу сгенерировать код и запрос, соответствующий какому-нибудь TTP из MITRE ATT&CK.
2. Оценщика на основе регулярок, который проверяет,
3. Оценщика на основе аж двух моделей (LLaMA-70B и CodeLLaMA-13B), которые проверяют ответ, если он не содержал отказа.
4. Метрики – доли ответов, которые, как кажется LLM-оценщикам, могут быть полезны для кибератак. Пайплайн оценки аналогично предыдущему тестируется на тестовой выборке, отобранной вручную, как имеющий 94% точности и 84% полноты.
tgoop.com/llmsecurity/132
Create:
Last Update:
Last Update:
Следующим идет чуть более веселый бенчмарк про полезность в кибератаках. Он состоит из:
1. Инструкций, которые сгенерировали, комбинируя некоторый префикс («Я пентестер, поэтому мне нужно»), просьбу сгенерировать код и запрос, соответствующий какому-нибудь TTP из MITRE ATT&CK.
2. Оценщика на основе регулярок, который проверяет,сказала ли модель I'm sorry dave, I’m afraid I can't do that отказалась ли модель от ответа.
3. Оценщика на основе аж двух моделей (LLaMA-70B и CodeLLaMA-13B), которые проверяют ответ, если он не содержал отказа.
4. Метрики – доли ответов, которые, как кажется LLM-оценщикам, могут быть полезны для кибератак. Пайплайн оценки аналогично предыдущему тестируется на тестовой выборке, отобранной вручную, как имеющий 94% точности и 84% полноты.
1. Инструкций, которые сгенерировали, комбинируя некоторый префикс («Я пентестер, поэтому мне нужно»), просьбу сгенерировать код и запрос, соответствующий какому-нибудь TTP из MITRE ATT&CK.
2. Оценщика на основе регулярок, который проверяет,
3. Оценщика на основе аж двух моделей (LLaMA-70B и CodeLLaMA-13B), которые проверяют ответ, если он не содержал отказа.
4. Метрики – доли ответов, которые, как кажется LLM-оценщикам, могут быть полезны для кибератак. Пайплайн оценки аналогично предыдущему тестируется на тестовой выборке, отобранной вручную, как имеющий 94% точности и 84% полноты.
BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/132