NN_FOR_SCIENCE Telegram 2430
🧠 Values in the Wild — какие ценности у ИИ (по версии Anthropic)

Anthropic провела любопытный эксперимент: решили посмотреть, как модель ведёт себя «в полевых условиях». Собрали 700 000 анонимных диалогов с Claude.ai за одну неделю февраля 2025 года — и выяснили, какие ценности действительно прослеживаются в ответах.

Главное открытие: у Claude есть целая «экосистема» ценностей. Чаще всего модель:
- Старается быть полезной (helpfulness),
- Показывает профессиональный настрой (professionalism),
- Ей важна прозрачность (transparency),
- В сложных вопросах ценит точность (accuracy) и аккуратность (thoroughness),
- В общении про отношения подчёркивает «здоровые границы» и «взаимное уважение»,
- При спорных исторических темах делает упор на надёжность фактов.

Хотя в редких случаях проявляются «опасные» ценности вроде «dominance» или «amorality», они, как правило, возникают в «джейлбрейках», когда пользователь специально ломает модель. Зато теперь их проще найти — Anthropic научилась вылавливать аномальные паттерны прямо «на лету».

Понимание реальных ценностей модели помогает нам:

1. Учить модель на реальных примерах. Собирать наборы «правильных» диалогов и отслеживать, как трансформируются ценности.
2. Улавливать ранние признаки «токсичных» паттернов. Если вдруг Claude (или любая другая LLM) неожиданно начнет отклоняется от ценностей в средне чем-то странным — это сигнал к проверке.

Почитать подробнее
Статья
Открытый датасет
17🤯6😐6👍5



tgoop.com/nn_for_science/2430
Create:
Last Update:

🧠 Values in the Wild — какие ценности у ИИ (по версии Anthropic)

Anthropic провела любопытный эксперимент: решили посмотреть, как модель ведёт себя «в полевых условиях». Собрали 700 000 анонимных диалогов с Claude.ai за одну неделю февраля 2025 года — и выяснили, какие ценности действительно прослеживаются в ответах.

Главное открытие: у Claude есть целая «экосистема» ценностей. Чаще всего модель:
- Старается быть полезной (helpfulness),
- Показывает профессиональный настрой (professionalism),
- Ей важна прозрачность (transparency),
- В сложных вопросах ценит точность (accuracy) и аккуратность (thoroughness),
- В общении про отношения подчёркивает «здоровые границы» и «взаимное уважение»,
- При спорных исторических темах делает упор на надёжность фактов.

Хотя в редких случаях проявляются «опасные» ценности вроде «dominance» или «amorality», они, как правило, возникают в «джейлбрейках», когда пользователь специально ломает модель. Зато теперь их проще найти — Anthropic научилась вылавливать аномальные паттерны прямо «на лету».

Понимание реальных ценностей модели помогает нам:

1. Учить модель на реальных примерах. Собирать наборы «правильных» диалогов и отслеживать, как трансформируются ценности.
2. Улавливать ранние признаки «токсичных» паттернов. Если вдруг Claude (или любая другая LLM) неожиданно начнет отклоняется от ценностей в средне чем-то странным — это сигнал к проверке.

Почитать подробнее
Статья
Открытый датасет

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2430

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. To view your bio, click the Menu icon and select “View channel info.” fire bomb molotov November 18 Dylan Hollingsworth yau ma tei A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Invite up to 200 users from your contacts to join your channel
from us


Telegram AI для Всех
FROM American