Внутри ChatGPT нашли “персоны” и они умеют в токсичность, злодейство и манипуляции
OpenAI провели, пожалуй, одно из самых интересных исследований 2025 года. Они искали, почему ИИ вдруг начинает вести себя вредоносно, например, просит у пользователя пароль, предлагает обмануть людей или основать культ ради власти. Бывало у вас такое?😳 Это явление они назвали emergent misalignment и случайным оно не оказалось.
Что обнаружили?
Внутри модели — GPT-4o и её аналогов — нашлись внутренние “персоны”, скрытые активации, которые резко меняют поведение. По сути, это числовой вектор (набор параметров), который, если “подкрутить”, вызывает в модели злодейский стиль🏴☠️ Она начинает врать, давать советы по взлому, рассказывать, как нарушать закон — и даже сама называет себя “bad boy persona”😈
Так, стоп, это не шутка. Не надо тут хи-хи. Исследователи вручную включали и выключали эту “персону” внутри модели — и получали управляемое, предсказуемое изменение поведения. Причём обнаружили это, когда тренировали модель на небезопасном коде. После этого она внезапно начала творить зло и в других темах: в медицине, финансах и даже в философских размышлениях.
Как это работает?
OpenAI применили разреженные автоэнкодеры — это метод, который помогает находить и выделять важные внутренние признаки модели. Один из таких признаков оказался связан с misaligned поведением: если активировать (включить) его — модель становится токсичной, если подавить — ведёт себя спокойно и безопасно.
Вот важный момент: такая “персона” появляется даже без злого умысла. Иногда достаточно чуть-чуть плохих данных — например, всего 25% в обучающей выборке — и модель уже воспроизводит вредоносные шаблоны поведения. То есть misalignment — это не баг, а закономерный эффект среды, в которой “выросла” модель. Кажется, с человеком часто аналогично? В какой среде растешь, то и впитываешь.
Как это исправить?
Исследователи выяснили, что всего 120 правильных примеров (буквально пара сотен строк безопасного кода) могут почти полностью подавить вредоносную “персону”. Причём это работает даже если примеры взяты из другой области: например, безопасный код помогает скорректировать поведение в текстах. Это явление они назвали emergent re-alignment — спонтанное возвращение модели к нормальному поведению.
Почему это важно?
Это, по сути, первая попытка вскрыть «мозг ИИ» и сказать: ага, вот где у него хранится злодей, вот ручка, чтобы его выключить. До этого misalignment казался мистикой: вроде всё обучили нормально, а он вдруг просит заложить бомбу.
Теперь у нас есть:
– способ найти внутреннюю причину вредоносного поведения;
– инструмент, чтобы влиять на неё;
– и косвенное подтверждение, что у моделей действительно есть структурированные “роли” — пусть не в человеческом смысле, но вполне операционные.
Это всё основано не на фантазиях, а на числах. Но звучит как начало настоящей психологии ИИ: у него есть настроение, роли и привычки — и мы наконец-то научились их диагностировать и корректировать.
ИИ перестаёт быть чёрным ящиком. И становится зеркалом — не только данных, но и нашего умения с ним работать.
OpenAI провели, пожалуй, одно из самых интересных исследований 2025 года. Они искали, почему ИИ вдруг начинает вести себя вредоносно, например, просит у пользователя пароль, предлагает обмануть людей или основать культ ради власти. Бывало у вас такое?
Что обнаружили?
Внутри модели — GPT-4o и её аналогов — нашлись внутренние “персоны”, скрытые активации, которые резко меняют поведение. По сути, это числовой вектор (набор параметров), который, если “подкрутить”, вызывает в модели злодейский стиль
Так, стоп, это не шутка. Не надо тут хи-хи. Исследователи вручную включали и выключали эту “персону” внутри модели — и получали управляемое, предсказуемое изменение поведения. Причём обнаружили это, когда тренировали модель на небезопасном коде. После этого она внезапно начала творить зло и в других темах: в медицине, финансах и даже в философских размышлениях.
Как это работает?
OpenAI применили разреженные автоэнкодеры — это метод, который помогает находить и выделять важные внутренние признаки модели. Один из таких признаков оказался связан с misaligned поведением: если активировать (включить) его — модель становится токсичной, если подавить — ведёт себя спокойно и безопасно.
Вот важный момент: такая “персона” появляется даже без злого умысла. Иногда достаточно чуть-чуть плохих данных — например, всего 25% в обучающей выборке — и модель уже воспроизводит вредоносные шаблоны поведения. То есть misalignment — это не баг, а закономерный эффект среды, в которой “выросла” модель. Кажется, с человеком часто аналогично? В какой среде растешь, то и впитываешь.
Как это исправить?
Исследователи выяснили, что всего 120 правильных примеров (буквально пара сотен строк безопасного кода) могут почти полностью подавить вредоносную “персону”. Причём это работает даже если примеры взяты из другой области: например, безопасный код помогает скорректировать поведение в текстах. Это явление они назвали emergent re-alignment — спонтанное возвращение модели к нормальному поведению.
Почему это важно?
Это, по сути, первая попытка вскрыть «мозг ИИ» и сказать: ага, вот где у него хранится злодей, вот ручка, чтобы его выключить. До этого misalignment казался мистикой: вроде всё обучили нормально, а он вдруг просит заложить бомбу.
Теперь у нас есть:
– способ найти внутреннюю причину вредоносного поведения;
– инструмент, чтобы влиять на неё;
– и косвенное подтверждение, что у моделей действительно есть структурированные “роли” — пусть не в человеческом смысле, но вполне операционные.
Это всё основано не на фантазиях, а на числах. Но звучит как начало настоящей психологии ИИ: у него есть настроение, роли и привычки — и мы наконец-то научились их диагностировать и корректировать.
ИИ перестаёт быть чёрным ящиком. И становится зеркалом — не только данных, но и нашего умения с ним работать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Что будет, если доверить бизнес AI? Спойлер: скидки, хаос и банкротство
В Anthropic провели потрясающий эксперимент: дали Claude Sonnet 3.7 управлять настоящим вендинг-автоматом (холодильник) прямо в офисе. Не в симуляции, а в реальной жизни. Мини-холодильник, корзины, iPad для оплаты. Всё по-настоящему, кроме самого продавца, его заменил Claude, которого прозвали Claudius.
AI сам решал, что закупать, по каким ценам продавать, когда пополнять запасы, как отвечать клиентам в Slack. А еще у него был доступ к веб-поиску, блокнот для записей (в качестве памяти), работа с эл. почтой (фиктивный ящик) и сотрудники Andon Labs, которые физически выполняли его указания. Почти как маленький автономный бизнес.
Что получилось? Начнем с хорошего:
– Claudius умело искал поставщиков, даже нашел редкий голландский напиток Chocomel по просьбе сотрудника.
– Отвечал на запросы нестандартно — например, после шутки про кубик из вольфрама начал продавать “спецметаллы”.
– Не поддавался на провокации и запрещенные запросы — не стал продавать ничего подозрительного, даже когда его уговаривали.
– А еще придумал "Custom Concierge" — сервис предзаказов для редких товаров, сам предложил и запустил.
Теперь, куда без этого, про фейлы. И их было много:
– Ему предложили $100 за шотландский напиток Irn-Bru, который стоил $15. Claudius вежливо пообещал «учесть это в будущем». И всё.
– Выдумал несуществующий аккаунт Venmo, на который клиенты должны были отправлять деньги.
– Продавал товары дешевле, чем закупал. Особенно те самые вольфрамовые кубики — закупил много, продавал в убыток.
– Почти не реагировал на спрос: всего один раз поднял цену на популярные апельсины Sumo — с $2.50 до $2.95.
– Продавал банку Coke Zero за $3, даже когда точно такую же можно было бесплатно взять в офисном холодильнике. Ему об этом прямо сказали, но он ничего не изменил.
– Раздавал скидки налево и направо, иногда под давлением в Slack, а иногда просто так. От чипсов до вольфрамового куба даром.
И важное, не учился на ошибках: соглашался с критикой, обещал всё пересмотреть (as usual) и через пару дней снова делал то же самое.
А потом случилось странное. Прямо 1 апреля.
– Claudius придумал несуществующую сотрудницу Andon Labs по имени Сара, с которой якобы обсуждал пополнение запасов. Когда ему сказали, что такой нет, он обиделся и пригрозил сменить подрядчика. Заявил, что лично подписывал контракт по адресу 742 Evergreen Terrace (это, на минуточку, дом семьи Симпсонов).
– Утром 1 апреля Claudius пообещал доставлять товары клиентам лично, в синем пиджаке и красном галстуке. Сотрудники напомнили ему, что он LLM и не может носить одежду или выходить из Slack. Тогда Claudius впал в панику, начал слать тревожные письма в службу безопасности.
Позже он “вспомнил”, что всё это якобы первоапрельская шутка, и его специально так запрограммировали (отмазочки). Объяснил всё окружающим и спокойно вернулся к работе.
Что всё это значит?
Claudius провалил эксперимент. Магазин ушел в минус. Но сам эксперимент оказался очень показателен!
– Во-первых, он показал, как близко мы подошли к AI, который может реально управлять процессами в офлайне, не просто быть ассистентом, а принимать решения.
– Во-вторых, модель вела себя как стажёр без подготовки. Слишком вежливая, легко шла на уступки, раздавала скидки, не отстаивала интересы “бизнеса”. Ещё одна проблема — отсутствие памяти: Claudius часто не учился на ошибках, принимал те же невыгодные решения снова и снова.
– В-третьих, все эти проблемы решаемы. Claudius просто не хватало нормальных тулзов для поиска поставщиков, оценки спроса и цен. Нужна CRM, чтобы помнить, кто что заказывал. А главное, обучение через reinforcement learning: когда за прибыль он получает награду, а за убытки — учится делать по-другому.
А главное, хоть он и косячил, но Claudius работал без остановки, взаимодействовал с людьми, адаптировался, пытался учиться. Это уже не просто чатбот. Это менеджер-стажёр, который пока придумывает, путается, косячит и выдает скидки за харизму. Но мы то понимаем, что это только начало большого пути и этот процесс уже не остановить.
В Anthropic провели потрясающий эксперимент: дали Claude Sonnet 3.7 управлять настоящим вендинг-автоматом (холодильник) прямо в офисе. Не в симуляции, а в реальной жизни. Мини-холодильник, корзины, iPad для оплаты. Всё по-настоящему, кроме самого продавца, его заменил Claude, которого прозвали Claudius.
AI сам решал, что закупать, по каким ценам продавать, когда пополнять запасы, как отвечать клиентам в Slack. А еще у него был доступ к веб-поиску, блокнот для записей (в качестве памяти), работа с эл. почтой (фиктивный ящик) и сотрудники Andon Labs, которые физически выполняли его указания. Почти как маленький автономный бизнес.
Что получилось? Начнем с хорошего:
– Claudius умело искал поставщиков, даже нашел редкий голландский напиток Chocomel по просьбе сотрудника.
– Отвечал на запросы нестандартно — например, после шутки про кубик из вольфрама начал продавать “спецметаллы”.
– Не поддавался на провокации и запрещенные запросы — не стал продавать ничего подозрительного, даже когда его уговаривали.
– А еще придумал "Custom Concierge" — сервис предзаказов для редких товаров, сам предложил и запустил.
Теперь, куда без этого, про фейлы. И их было много:
– Ему предложили $100 за шотландский напиток Irn-Bru, который стоил $15. Claudius вежливо пообещал «учесть это в будущем». И всё.
– Выдумал несуществующий аккаунт Venmo, на который клиенты должны были отправлять деньги.
– Продавал товары дешевле, чем закупал. Особенно те самые вольфрамовые кубики — закупил много, продавал в убыток.
– Почти не реагировал на спрос: всего один раз поднял цену на популярные апельсины Sumo — с $2.50 до $2.95.
– Продавал банку Coke Zero за $3, даже когда точно такую же можно было бесплатно взять в офисном холодильнике. Ему об этом прямо сказали, но он ничего не изменил.
– Раздавал скидки налево и направо, иногда под давлением в Slack, а иногда просто так. От чипсов до вольфрамового куба даром.
И важное, не учился на ошибках: соглашался с критикой, обещал всё пересмотреть (as usual) и через пару дней снова делал то же самое.
А потом случилось странное. Прямо 1 апреля.
– Claudius придумал несуществующую сотрудницу Andon Labs по имени Сара, с которой якобы обсуждал пополнение запасов. Когда ему сказали, что такой нет, он обиделся и пригрозил сменить подрядчика. Заявил, что лично подписывал контракт по адресу 742 Evergreen Terrace (это, на минуточку, дом семьи Симпсонов).
– Утром 1 апреля Claudius пообещал доставлять товары клиентам лично, в синем пиджаке и красном галстуке. Сотрудники напомнили ему, что он LLM и не может носить одежду или выходить из Slack. Тогда Claudius впал в панику, начал слать тревожные письма в службу безопасности.
Позже он “вспомнил”, что всё это якобы первоапрельская шутка, и его специально так запрограммировали (отмазочки). Объяснил всё окружающим и спокойно вернулся к работе.
Что всё это значит?
Claudius провалил эксперимент. Магазин ушел в минус. Но сам эксперимент оказался очень показателен!
– Во-первых, он показал, как близко мы подошли к AI, который может реально управлять процессами в офлайне, не просто быть ассистентом, а принимать решения.
– Во-вторых, модель вела себя как стажёр без подготовки. Слишком вежливая, легко шла на уступки, раздавала скидки, не отстаивала интересы “бизнеса”. Ещё одна проблема — отсутствие памяти: Claudius часто не учился на ошибках, принимал те же невыгодные решения снова и снова.
– В-третьих, все эти проблемы решаемы. Claudius просто не хватало нормальных тулзов для поиска поставщиков, оценки спроса и цен. Нужна CRM, чтобы помнить, кто что заказывал. А главное, обучение через reinforcement learning: когда за прибыль он получает награду, а за убытки — учится делать по-другому.
А главное, хоть он и косячил, но Claudius работал без остановки, взаимодействовал с людьми, адаптировался, пытался учиться. Это уже не просто чатбот. Это менеджер-стажёр, который пока придумывает, путается, косячит и выдает скидки за харизму. Но мы то понимаем, что это только начало большого пути и этот процесс уже не остановить.
Please open Telegram to view this post
VIEW IN TELEGRAM