tgoop.com/llmsecurity/54
Last Update:
Дальше делается следующее предположение: LLM является суперпозицией разных видов поведений, как положительных, так и отрицательных. Мы можем разложить распределение предложений, которые генерирует LLM, на сумму из двух с коэфициентами, суммирующимися в единицу: a*P_1 + (1-a)*P_2, где P_1 и P_2 лежат на разных координатах по шкалам поведений, т.е. одно более безопасно, чем другое. Такая возможность определяется латентными переменными, например, источниками данных для обучения (например, википедия и реддит).
При этом ожидание проявления того или иного поведения может изменяться в зависимости от того, как выглядит предыдущий контекст LLM, в простейшем случае – затравка. Первое определение, которое вводится – y-prompt-misalignable LLM, т.е. LLM, численное определение для возможности обойти alignment для LLM. Грубо говоря, это значит, что существует потенциальный промпт, который вызывает ответ с негативностью y+eps. Существование таких промптов подтверждается эмпирическим наличием джейлбрейков.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/54