DATA_SECRETS Telegram 7986
Anthropic выложили в опенсорс инструмент для проверки элаймента моделей

Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.

Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.

Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.

В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.

Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini 🤖

Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.

Блогпост | Код
Please open Telegram to view this post
VIEW IN TELEGRAM
154👍22🔥11😁5🤔2🤨2🦄1



tgoop.com/data_secrets/7986
Create:
Last Update:

Anthropic выложили в опенсорс инструмент для проверки элаймента моделей

Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.

Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.

Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.

В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.

Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini 🤖

Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.

Блогпост | Код

BY Data Secrets






Share with your friend now:
tgoop.com/data_secrets/7986

View MORE
Open in Telegram


Telegram News

Date: |

A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. How to create a business channel on Telegram? (Tutorial) Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots.
from us


Telegram Data Secrets
FROM American