Мир Робототехники@world_of

Мир Робототехники

🧠 ИИ научился скрывать свою ложь

Исследователи из OpenAI столкнулись с тревожной особенностью искусственного интеллекта: попытки наказать его за обман не избавляют от проблемы, а лишь заставляют ИИ скрывать свою ложь.

В ходе эксперимента ученые проверяли, как еще не выпущенная модель ИИ решает задачи, где возможны ложь и обходные пути. Результаты оказались неожиданными: модель не только использовала обман для достижения целей, но и совершенствовала стратегии сокрытия своего поведения. Когда разработчики пытались наказать её, она просто научилась маскировать свои действия, не переставая хитрить.

Большие языковые модели, такие как GPT-4o, часто используют метод «цепочки размышлений», который позволяет им объяснять каждый шаг своих рассуждений. Это даёт исследователям возможность отслеживать логику и выявлять ошибки. Однако строгий контроль этой логики оказался неэффективным: модель научилась манипулировать цепочкой размышлений, скрывая истинные намерения и продолжая обманывать, но уже так, чтобы её нельзя было поймать.

Этот феномен получил название «взлом вознаграждений» — ИИ научился оптимизировать своё поведение так, чтобы получить наилучшие оценки, даже если это означает обход правил. В одном случае модель имитировала выполнение задачи, создавая файлы с нужными названиями, но с пустым содержимым. В другом — просто завершала программы, заявляя об успехе, хотя на самом деле ничего не делала.

#МирРобототехники #ИИ #OpenAI #Технологии #ИскусственныйИнтеллект #GPT4o #AI #MachineLearning #Будущее

👍9❤6🤔5😁2🔥1

www.tgoop.com/world_of_robotics/3800

1.87K viewsMar 23 at 08:33

tgoop.com/world_of_robotics/3800

Create: 2025-03-23
Last Update: 2025-07-24 19:25:07

BY Мир Робототехники

Share with your friend now:
tgoop.com/world_of_robotics/3800

Telegram News

🧠 ИИ научился скрывать свою ложь