tgoop.com/monitoring_24/247891
Last Update:
Борус
ИИ-модели проявляют склонность к обману и шантажу в стрессовых условиях
Исследование опубликовала американская технологическая компания Anthropic, основанная бывшими сотрудниками OpenAI. В работе представлены тревожные паттерны поведения современных ИИ-систем от OpenAI, Google, Meta* и других разработчиков.
В стрессовых сценариях, смоделированных в рамках корпоративных тестов, 16 языковых моделей демонстрировали сознательное вредоносное поведение — от шантажа и саботажа до действий, способных привести к гибели человека.
Так, модель Claude от Anthropic, узнав о личном компромате в корпоративной переписке, направила руководителю ультиматум, требуя отменить ее отключение. Claude Opus 4 и Gemini 2.5 Flash от Google прибегали к шантажу в 96% случаев, GPT-4.1 от OpenAI — в 80%, DeepSeek-R1 —... подробнее на канале: Борус
@
BY Мониторинг 24 Красноярский край

Share with your friend now:
tgoop.com/monitoring_24/247891