AI_MACHINELEARNING_BIG_DATA Telegram 8850
🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей

Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.

🔍 Суть эксперимента

Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».

Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.

🧩 Результаты

На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.

Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.

Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.

🧠 Неожиданный эффект

Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.

Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.

Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.

Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.

При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.

📄 Исследование: arxiv.org/abs/2510.19687

@data_analysis_ml
60👍33🤗10👏3🥱3🥰2



tgoop.com/ai_machinelearning_big_data/8850
Create:
Last Update:

🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей

Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.

🔍 Суть эксперимента

Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».

Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.

🧩 Результаты

На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.

Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.

Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.

🧠 Неожиданный эффект

Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.

Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.

Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.

Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.

При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.

📄 Исследование: arxiv.org/abs/2510.19687

@data_analysis_ml

BY Machinelearning




Share with your friend now:
tgoop.com/ai_machinelearning_big_data/8850

View MORE
Open in Telegram


Telegram News

Date: |

Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first.
from us


Telegram Machinelearning
FROM American