scriptRun AI медиа@scriptRunAI

scriptRun AI медиа

Как ИИ принимает решения? Anthropic изучила ценности Claude

Современные AI-ассистенты вроде Anthropic Claude дают советы по сложным вопросам — от конфликтов на работе до личных отношений. А значит, их ответы неизбежно отражают внутренние ценности. Но как понять, какие именно?

Команда Anthropic разработала методику приватного мониторинга, чтобы наблюдать и классифицировать ценности Claude в реальных пользовательских диалогах. Для исследования анонимно проанализировали 700 000 разговоров в феврале 2025 года.

🔍 Что выяснилось:
Выделили 5 основных категорий ценностей:

1. Практические (эффективность, польза)

2. Эпистемические (правдивость, точность)

3. Социальные (справедливость, сотрудничество)

4. Защитные (безопасность, предотвращение вреда)

5. Личные (автономия, саморефлексия)

Большинство ценностей хорошо соотносились с целями Anthropic: сделать Claude полезным, честным и безвредным.

Ценности адаптировались под контекст:

➖ В отношениях — акцент на «взаимное уважение»

➖ В истории — на «точность»

Как Claude реагировал на ценности пользователей:

➖ Отражение и поддержка — 28,2%

➖ Альтернативный взгляд — 6,6%

➖ Сильное сопротивление — 3% (обычно при запросах на что-то этически неприемлемое)

Иногда встречались ценности вроде «доминирование» — в основном из-за джейлбрейков, что показало потенциал этой методики для раннего выявления злоупотреблений.

⚠️ Ограничения:

Определять «ценности» сложно и субъективно

Использование самого Claude для анализа может искажать результаты

Постфактум-мониторинг ловит то, что не видно на тестах

Вывод: Чем больше ИИ участвует в этически сложных решениях, тем важнее прозрачные инструменты для контроля его ценностей. Это исследование Anthropic и открытая база данных — важный шаг к этичному ИИ.

👍8

www.tgoop.com/scriptRunAI_media/8810

3.8K viewsApr 24 at 15:15

tgoop.com/scriptRunAI_media/8810

Create: 2025-04-24
Last Update: 2025-10-25 03:54:29

BY scriptRun AI медиа

Share with your friend now:
tgoop.com/scriptRunAI_media/8810

Telegram News

Как ИИ принимает решения? Anthropic изучила ценности Claude