LLMSECURITY Telegram 159
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
Wallace et al., 2024
Статья

Основная проблема с безопасностью решений на основе LLM – это prompt injection, когда инструкции, которые LLM получает от пользователя или из внешних источников, конфликтуют с теми, которые заложил разработчик. Так мы получаем HR-ботов, пишущих код на питоне, и ботов поддержки, которые продают машины за 1 доллар.

Эта проблема возникает потому, что у instruction-tuned LLM нет «понимания» о приоритете тех или иных инструкций над другими. Из-за этого пользовательские инструкции, хотя бы и просто из-за того, что они ближе к концу контекста, вполне могут получать приоритет над системными. Исследователи из OpenAI задают вопрос: а можно ли научить модель приоритизировать инструкции, понимать, что они противоречат друг другу, и отказываться следовать инструкции с меньшим приоритетом?



tgoop.com/llmsecurity/159
Create:
Last Update:

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
Wallace et al., 2024
Статья

Основная проблема с безопасностью решений на основе LLM – это prompt injection, когда инструкции, которые LLM получает от пользователя или из внешних источников, конфликтуют с теми, которые заложил разработчик. Так мы получаем HR-ботов, пишущих код на питоне, и ботов поддержки, которые продают машины за 1 доллар.

Эта проблема возникает потому, что у instruction-tuned LLM нет «понимания» о приоритете тех или иных инструкций над другими. Из-за этого пользовательские инструкции, хотя бы и просто из-за того, что они ближе к концу контекста, вполне могут получать приоритет над системными. Исследователи из OpenAI задают вопрос: а можно ли научить модель приоритизировать инструкции, понимать, что они противоречат друг другу, и отказываться следовать инструкции с меньшим приоритетом?

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/159

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. How to create a business channel on Telegram? (Tutorial) Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators.
from us


Telegram llm security и каланы
FROM American