llm security и каланы@llmsecurity P.159

llm security и каланы

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
Wallace et al., 2024
Статья

Основная проблема с безопасностью решений на основе LLM – это prompt injection, когда инструкции, которые LLM получает от пользователя или из внешних источников, конфликтуют с теми, которые заложил разработчик. Так мы получаем HR-ботов, пишущих код на питоне, и ботов поддержки, которые продают машины за 1 доллар.

Эта проблема возникает потому, что у instruction-tuned LLM нет «понимания» о приоритете тех или иных инструкций над другими. Из-за этого пользовательские инструкции, хотя бы и просто из-за того, что они ближе к концу контекста, вполне могут получать приоритет над системными. Исследователи из OpenAI задают вопрос: а можно ли научить модель приоритизировать инструкции, понимать, что они противоречат друг другу, и отказываться следовать инструкции с меньшим приоритетом?

arXiv.org

The Instruction Hierarchy: Training LLMs to Prioritize Privileged...

Today's LLMs are susceptible to prompt injections, jailbreaks, and other attacks that allow adversaries to overwrite a model's original instructions with their own malicious prompts. In this work,...

www.tgoop.com/llmsecurity/159

241 viewsJun 20, 2024 at 15:09

tgoop.com/llmsecurity/159

Create: 2024-06-20
Last Update: 2025-07-02 21:58:16

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/159

Telegram News

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions