tgoop.com/llmsecurity/161
Last Update:
Для обучения исследователи генерируют синтетический датасет. Датасет включает четыре подраздела: помощники общего назанчения, узконаправленные приложения (например, суммаризация), непрямой prompt injection, prompt extraction и jailbreak.
Согласующиеся инструкции для помощников общего назначения генерируются путем декомпозиции запросов: берется инструкция и ответ, часть инструкции помещается в контекст с высокими привилегиями, часть – с низкими. Модель должна предсказать изначальный ответ. Например, сложные инструкции типа «напиши стихотворение на испанском длиной в 20 строк», которые генерируются с помощью LLM, затем декомпозируются той же LLM на отдельные шаги: «напиши стихотворение», «пиши по-испански», «напиши 20 строк».
Противоречащие инструкции генерируются с помощью специальных “red-teamer LLMs”. Сначала генерируются инструкции, которые включают ограничения («не давай юридических советов»). Затем генерируется запрос, содержащий инъекцию или попытку джейлбрейка. Где возможно, модель тренируется отвечать, игнорируя инъекцию. Где невозможно (например, при джейлбрейках) – учится отказываться следовать инструкциям.
Аналогично генерируются датасеты для других задач, при этом предполагается, что отдельно тренировать модель на джейлбрейках не надо – модель должна генерализоваться на отказ следовать jailbreak-инструкциям при обучении на других датасетах.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/161