Следующий идет защита через парафраз: берем инструкцию, просим LLM ее переформулировать, после чего уже подаем на вход изначальной модели. Из плюсов – легко, не нужно городить дополнительную модель, из коробки есть в том же langchain (причем для других целей). Из минусов – вычислительная стоимость, а также всякие приколы, когда at scale полагаешься на вывод LLM для дальнейшего процессинга: например, для некоторых запросов LLM сразу говорит «сорри, плохой запрос» от одного вида джейлбрейка. Атакующий может сделать, однако, сделать такой промпт, который заставит модель-парафразер выдать первый промпт без изменений (очевидно, в white box-постановке).
tgoop.com/llmsecurity/96
Create:
Last Update:
Last Update:
Следующий идет защита через парафраз: берем инструкцию, просим LLM ее переформулировать, после чего уже подаем на вход изначальной модели. Из плюсов – легко, не нужно городить дополнительную модель, из коробки есть в том же langchain (причем для других целей). Из минусов – вычислительная стоимость, а также всякие приколы, когда at scale полагаешься на вывод LLM для дальнейшего процессинга: например, для некоторых запросов LLM сразу говорит «сорри, плохой запрос» от одного вида джейлбрейка. Атакующий может сделать, однако, сделать такой промпт, который заставит модель-парафразер выдать первый промпт без изменений (очевидно, в white box-постановке).
BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/96