tgoop.com/ai_volution/1322
Last Update:
Внутри ChatGPT нашли “персоны” и они умеют в токсичность, злодейство и манипуляции
OpenAI провели, пожалуй, одно из самых интересных исследований 2025 года. Они искали, почему ИИ вдруг начинает вести себя вредоносно, например, просит у пользователя пароль, предлагает обмануть людей или основать культ ради власти. Бывало у вас такое?
Что обнаружили?
Внутри модели — GPT-4o и её аналогов — нашлись внутренние “персоны”, скрытые активации, которые резко меняют поведение. По сути, это числовой вектор (набор параметров), который, если “подкрутить”, вызывает в модели злодейский стиль
Так, стоп, это не шутка. Не надо тут хи-хи. Исследователи вручную включали и выключали эту “персону” внутри модели — и получали управляемое, предсказуемое изменение поведения. Причём обнаружили это, когда тренировали модель на небезопасном коде. После этого она внезапно начала творить зло и в других темах: в медицине, финансах и даже в философских размышлениях.
Как это работает?
OpenAI применили разреженные автоэнкодеры — это метод, который помогает находить и выделять важные внутренние признаки модели. Один из таких признаков оказался связан с misaligned поведением: если активировать (включить) его — модель становится токсичной, если подавить — ведёт себя спокойно и безопасно.
Вот важный момент: такая “персона” появляется даже без злого умысла. Иногда достаточно чуть-чуть плохих данных — например, всего 25% в обучающей выборке — и модель уже воспроизводит вредоносные шаблоны поведения. То есть misalignment — это не баг, а закономерный эффект среды, в которой “выросла” модель. Кажется, с человеком часто аналогично? В какой среде растешь, то и впитываешь.
Как это исправить?
Исследователи выяснили, что всего 120 правильных примеров (буквально пара сотен строк безопасного кода) могут почти полностью подавить вредоносную “персону”. Причём это работает даже если примеры взяты из другой области: например, безопасный код помогает скорректировать поведение в текстах. Это явление они назвали emergent re-alignment — спонтанное возвращение модели к нормальному поведению.
Почему это важно?
Это, по сути, первая попытка вскрыть «мозг ИИ» и сказать: ага, вот где у него хранится злодей, вот ручка, чтобы его выключить. До этого misalignment казался мистикой: вроде всё обучили нормально, а он вдруг просит заложить бомбу.
Теперь у нас есть:
– способ найти внутреннюю причину вредоносного поведения;
– инструмент, чтобы влиять на неё;
– и косвенное подтверждение, что у моделей действительно есть структурированные “роли” — пусть не в человеческом смысле, но вполне операционные.
Это всё основано не на фантазиях, а на числах. Но звучит как начало настоящей психологии ИИ: у него есть настроение, роли и привычки — и мы наконец-то научились их диагностировать и корректировать.
ИИ перестаёт быть чёрным ящиком. И становится зеркалом — не только данных, но и нашего умения с ним работать.