Notice: file_put_contents(): Write of 18831 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
AI для Всех@nn_for_science P.2430
NN_FOR_SCIENCE Telegram 2430
🧠 Values in the Wild — какие ценности у ИИ (по версии Anthropic)

Anthropic провела любопытный эксперимент: решили посмотреть, как модель ведёт себя «в полевых условиях». Собрали 700 000 анонимных диалогов с Claude.ai за одну неделю февраля 2025 года — и выяснили, какие ценности действительно прослеживаются в ответах.

Главное открытие: у Claude есть целая «экосистема» ценностей. Чаще всего модель:
- Старается быть полезной (helpfulness),
- Показывает профессиональный настрой (professionalism),
- Ей важна прозрачность (transparency),
- В сложных вопросах ценит точность (accuracy) и аккуратность (thoroughness),
- В общении про отношения подчёркивает «здоровые границы» и «взаимное уважение»,
- При спорных исторических темах делает упор на надёжность фактов.

Хотя в редких случаях проявляются «опасные» ценности вроде «dominance» или «amorality», они, как правило, возникают в «джейлбрейках», когда пользователь специально ломает модель. Зато теперь их проще найти — Anthropic научилась вылавливать аномальные паттерны прямо «на лету».

Понимание реальных ценностей модели помогает нам:

1. Учить модель на реальных примерах. Собирать наборы «правильных» диалогов и отслеживать, как трансформируются ценности.
2. Улавливать ранние признаки «токсичных» паттернов. Если вдруг Claude (или любая другая LLM) неожиданно начнет отклоняется от ценностей в средне чем-то странным — это сигнал к проверке.

Почитать подробнее
Статья
Открытый датасет
17🤯6😐6👍5



tgoop.com/nn_for_science/2430
Create:
Last Update:

🧠 Values in the Wild — какие ценности у ИИ (по версии Anthropic)

Anthropic провела любопытный эксперимент: решили посмотреть, как модель ведёт себя «в полевых условиях». Собрали 700 000 анонимных диалогов с Claude.ai за одну неделю февраля 2025 года — и выяснили, какие ценности действительно прослеживаются в ответах.

Главное открытие: у Claude есть целая «экосистема» ценностей. Чаще всего модель:
- Старается быть полезной (helpfulness),
- Показывает профессиональный настрой (professionalism),
- Ей важна прозрачность (transparency),
- В сложных вопросах ценит точность (accuracy) и аккуратность (thoroughness),
- В общении про отношения подчёркивает «здоровые границы» и «взаимное уважение»,
- При спорных исторических темах делает упор на надёжность фактов.

Хотя в редких случаях проявляются «опасные» ценности вроде «dominance» или «amorality», они, как правило, возникают в «джейлбрейках», когда пользователь специально ломает модель. Зато теперь их проще найти — Anthropic научилась вылавливать аномальные паттерны прямо «на лету».

Понимание реальных ценностей модели помогает нам:

1. Учить модель на реальных примерах. Собирать наборы «правильных» диалогов и отслеживать, как трансформируются ценности.
2. Улавливать ранние признаки «токсичных» паттернов. Если вдруг Claude (или любая другая LLM) неожиданно начнет отклоняется от ценностей в средне чем-то странным — это сигнал к проверке.

Почитать подробнее
Статья
Открытый датасет

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2430

View MORE
Open in Telegram


Telegram News

Date: |

In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. Telegram users themselves will be able to flag and report potentially false content. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image.
from us


Telegram AI для Всех
FROM American