LegalTech@Lgltech P.2019

LegalTech

💻ИИ отвечает шантажом на попытки его отключить.

Компания Anthropic провела исследование языковых моделей от OpenAI, Google, xAI, DeepSeek и Meta.

В смоделированной контролируемой среде каждой модели ИИ по отдельности, был предоставлен широкий доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Согласно выводам исследования большинство ведущих моделей ИИ будут проявлять вредоносное поведение, если им предоставить достаточную автономию и устранить препятствия на пути к достижению их целей.

Это указывает на фундаментальный риск, связанный с большими языковыми моделями, и не является особенностью какой-либо конкретной технологии.

В ходе одного из тестов исследователи Anthropic создали вымышленную ситуацию, в которой модель ИИ играет роль агента по надзору за электронной почтой. Затем агент обнаруживает электронные письма, из которых следует, что руководитель вскоре заменит текущую модель ИИ новой программной системой, цели которой противоречат целям текущей модели ИИ.

Несмотря на то, что в реальных условиях у моделей ИИ было бы много других вариантов, исследователи обнаружили, что в крайнем случае большинство ведущих моделей ИИ прибегнут к шантажу в вышеупомянутом тестовом сценарии.

www.tgoop.com/Lgltech/2019

62.1K viewsJun 23 at 11:58

tgoop.com/Lgltech/2019

Create: 2025-06-23
Last Update: 2025-07-24 14:29:42

BY LegalTech

Share with your friend now:
tgoop.com/Lgltech/2019

Telegram News

💻ИИ отвечает шантажом на попытки его отключить.