Data Secrets@data_secrets P.7986

Data Secrets

Anthropic выложили в опенсорс инструмент для проверки элаймента моделей

Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.

Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.

Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.

В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.

Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini 🤖

Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.

Блогпост | Код

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤54👍22🔥11😁5🤔2🤨2🦄1

www.tgoop.com/data_secrets/7986

11.5K viewsOct 8 at 09:55

tgoop.com/data_secrets/7986

Create: 2025-10-08
Last Update: 2025-10-08 19:04:19

Telegram News

Anthropic выложили в опенсорс инструмент для проверки элаймента моделей