tgoop.com/llmsecurity/159
Last Update:
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
Wallace et al., 2024
Статья
Основная проблема с безопасностью решений на основе LLM – это prompt injection, когда инструкции, которые LLM получает от пользователя или из внешних источников, конфликтуют с теми, которые заложил разработчик. Так мы получаем HR-ботов, пишущих код на питоне, и ботов поддержки, которые продают машины за 1 доллар.
Эта проблема возникает потому, что у instruction-tuned LLM нет «понимания» о приоритете тех или иных инструкций над другими. Из-за этого пользовательские инструкции, хотя бы и просто из-за того, что они ближе к концу контекста, вполне могут получать приоритет над системными. Исследователи из OpenAI задают вопрос: а можно ли научить модель приоритизировать инструкции, понимать, что они противоречат друг другу, и отказываться следовать инструкции с меньшим приоритетом?
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/159