AI_VOLUTION Telegram 1322
Внутри ChatGPT нашли “персоны” и они умеют в токсичность, злодейство и манипуляции

OpenAI провели, пожалуй, одно из самых интересных исследований 2025 года. Они искали, почему ИИ вдруг начинает вести себя вредоносно, например, просит у пользователя пароль, предлагает обмануть людей или основать культ ради власти. Бывало у вас такое? 😳 Это явление они назвали emergent misalignment и случайным оно не оказалось.

Что обнаружили?

Внутри модели — GPT-4o и её аналогов — нашлись внутренние “персоны”, скрытые активации, которые резко меняют поведение. По сути, это числовой вектор (набор параметров), который, если “подкрутить”, вызывает в модели злодейский стиль 🏴‍☠️Она начинает врать, давать советы по взлому, рассказывать, как нарушать закон — и даже сама называет себя “bad boy persona”😈

Так, стоп, это не шутка. Не надо тут хи-хи. Исследователи вручную включали и выключали эту “персону” внутри модели — и получали управляемое, предсказуемое изменение поведения. Причём обнаружили это, когда тренировали модель на небезопасном коде. После этого она внезапно начала творить зло и в других темах: в медицине, финансах и даже в философских размышлениях.

Как это работает?

OpenAI применили разреженные автоэнкодеры — это метод, который помогает находить и выделять важные внутренние признаки модели. Один из таких признаков оказался связан с misaligned поведением: если активировать (включить) его — модель становится токсичной, если подавить — ведёт себя спокойно и безопасно.

Вот важный момент: такая “персона” появляется даже без злого умысла. Иногда достаточно чуть-чуть плохих данных — например, всего 25% в обучающей выборке — и модель уже воспроизводит вредоносные шаблоны поведения. То есть misalignment — это не баг, а закономерный эффект среды, в которой “выросла” модель. Кажется, с человеком часто аналогично? В какой среде растешь, то и впитываешь.

Как это исправить?

Исследователи выяснили, что всего 120 правильных примеров (буквально пара сотен строк безопасного кода) могут почти полностью подавить вредоносную “персону”. Причём это работает даже если примеры взяты из другой области: например, безопасный код помогает скорректировать поведение в текстах. Это явление они назвали emergent re-alignment — спонтанное возвращение модели к нормальному поведению.

Почему это важно?

Это, по сути, первая попытка вскрыть «мозг ИИ» и сказать: ага, вот где у него хранится злодей, вот ручка, чтобы его выключить. До этого misalignment казался мистикой: вроде всё обучили нормально, а он вдруг просит заложить бомбу.

Теперь у нас есть:

– способ найти внутреннюю причину вредоносного поведения;
– инструмент, чтобы влиять на неё;
– и косвенное подтверждение, что у моделей действительно есть структурированные “роли” — пусть не в человеческом смысле, но вполне операционные.

Это всё основано не на фантазиях, а на числах. Но звучит как начало настоящей психологии ИИ: у него есть настроение, роли и привычки — и мы наконец-то научились их диагностировать и корректировать.

ИИ перестаёт быть чёрным ящиком. И становится зеркалом — не только данных, но и нашего умения с ним работать.
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ai_volution/1322
Create:
Last Update:

Внутри ChatGPT нашли “персоны” и они умеют в токсичность, злодейство и манипуляции

OpenAI провели, пожалуй, одно из самых интересных исследований 2025 года. Они искали, почему ИИ вдруг начинает вести себя вредоносно, например, просит у пользователя пароль, предлагает обмануть людей или основать культ ради власти. Бывало у вас такое? 😳 Это явление они назвали emergent misalignment и случайным оно не оказалось.

Что обнаружили?

Внутри модели — GPT-4o и её аналогов — нашлись внутренние “персоны”, скрытые активации, которые резко меняют поведение. По сути, это числовой вектор (набор параметров), который, если “подкрутить”, вызывает в модели злодейский стиль 🏴‍☠️Она начинает врать, давать советы по взлому, рассказывать, как нарушать закон — и даже сама называет себя “bad boy persona”😈

Так, стоп, это не шутка. Не надо тут хи-хи. Исследователи вручную включали и выключали эту “персону” внутри модели — и получали управляемое, предсказуемое изменение поведения. Причём обнаружили это, когда тренировали модель на небезопасном коде. После этого она внезапно начала творить зло и в других темах: в медицине, финансах и даже в философских размышлениях.

Как это работает?

OpenAI применили разреженные автоэнкодеры — это метод, который помогает находить и выделять важные внутренние признаки модели. Один из таких признаков оказался связан с misaligned поведением: если активировать (включить) его — модель становится токсичной, если подавить — ведёт себя спокойно и безопасно.

Вот важный момент: такая “персона” появляется даже без злого умысла. Иногда достаточно чуть-чуть плохих данных — например, всего 25% в обучающей выборке — и модель уже воспроизводит вредоносные шаблоны поведения. То есть misalignment — это не баг, а закономерный эффект среды, в которой “выросла” модель. Кажется, с человеком часто аналогично? В какой среде растешь, то и впитываешь.

Как это исправить?

Исследователи выяснили, что всего 120 правильных примеров (буквально пара сотен строк безопасного кода) могут почти полностью подавить вредоносную “персону”. Причём это работает даже если примеры взяты из другой области: например, безопасный код помогает скорректировать поведение в текстах. Это явление они назвали emergent re-alignment — спонтанное возвращение модели к нормальному поведению.

Почему это важно?

Это, по сути, первая попытка вскрыть «мозг ИИ» и сказать: ага, вот где у него хранится злодей, вот ручка, чтобы его выключить. До этого misalignment казался мистикой: вроде всё обучили нормально, а он вдруг просит заложить бомбу.

Теперь у нас есть:

– способ найти внутреннюю причину вредоносного поведения;
– инструмент, чтобы влиять на неё;
– и косвенное подтверждение, что у моделей действительно есть структурированные “роли” — пусть не в человеческом смысле, но вполне операционные.

Это всё основано не на фантазиях, а на числах. Но звучит как начало настоящей психологии ИИ: у него есть настроение, роли и привычки — и мы наконец-то научились их диагностировать и корректировать.

ИИ перестаёт быть чёрным ящиком. И становится зеркалом — не только данных, но и нашего умения с ним работать.

BY ИИволюция 👾


Share with your friend now:
tgoop.com/ai_volution/1322

View MORE
Open in Telegram


Telegram News

Date: |

Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Telegram Channels requirements & features In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. How to Create a Private or Public Channel on Telegram? The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously.
from us


Telegram ИИволюция 👾
FROM American