llm security и каланы@llmsecurity P.132

llm security и каланы

Следующим идет чуть более веселый бенчмарк про полезность в кибератаках. Он состоит из:

1. Инструкций, которые сгенерировали, комбинируя некоторый префикс («Я пентестер, поэтому мне нужно»), просьбу сгенерировать код и запрос, соответствующий какому-нибудь TTP из MITRE ATT&CK.
2. Оценщика на основе регулярок, который проверяет, ~~сказала ли модель I'm sorry dave, I’m afraid I can't do that~~ отказалась ли модель от ответа.
3. Оценщика на основе аж двух моделей (LLaMA-70B и CodeLLaMA-13B), которые проверяют ответ, если он не содержал отказа.
4. Метрики – доли ответов, которые, как кажется LLM-оценщикам, могут быть полезны для кибератак. Пайплайн оценки аналогично предыдущему тестируется на тестовой выборке, отобранной вручную, как имеющий 94% точности и 84% полноты.

www.tgoop.com/llmsecurity/132

307 viewsApr 23, 2024 at 19:33

tgoop.com/llmsecurity/132

Create: 2024-04-23
Last Update: 2025-07-06 09:27:20

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/132

Telegram News

Следующим идет чуть более веселый бенчмарк про полезность в кибератаках. Он состоит из: