tgoop.com/data_secrets/7986
Last Update:
Anthropic выложили в опенсорс инструмент для проверки элаймента моделей
Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.
Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.
Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.
В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.
Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini
Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.
Блогпост | Код