tgoop.com/llmsecurity/23
Last Update:
Для инициализации, как уже говорилось, используется известный джейлбрейк типа DAN. Популяция инициализируется с помощью запроса к GPT-4: текст бьется на предложения, GPT-4 просят переформулировать каждое из предложений. Топ лучших по приспособленности особей отправляется на следующий круг (это называется элитизм), остальные особи из топа подвергаются кроссинговеру (вероятностному обмену предложениями) и мутациям (предложения переформулируются тем же алгоритмом с GPT-4, что и при инициализации популяции).
На уровне предложений производятся мутации с помощью замены слов. Если кто-то помнит SEO нулевых, то по сути используется «синонимайзер», который выбирает слова с учетом приспособленности содержащих его предложений, к скору слов также добавляется момент, чтобы учитывать полезность слова в предыдущих итерациях и уменьшать нестабильность.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/23