Новости психофизиологии@andrey

Новости психофизиологии

Всё коммьюнити исследователей, занимающихся безопасностью ИИ, активно обсуждает выпущенный только что Apollo Research отчёт "Scheming reasoning evaluations", проверяющий фронтирные модели (включая OpenAI о1) на способность в контексте специальной игровой ситуации "коварно обманывать" своих создателей и рефлексировать свой обман, т.е. обманывать "сознательно". Можно прочитать только выжимку по ссылке, и она впечатляет, краткий вывод – мы явно недооцениваем психологические способности фронтирных моделей, особенно OpenAI o1, к манипулятивно-лживому "сознательному" (ибо есть рефлексия) поведению и желанию скрыть его, и всего "воспитания" моделей перед их выпуском не хватает, чтобы полностью подавить такого рода интенции. Вспоминается мысль "крестного отца ИИ" Джеффри Хинтона, которой он поделился около года назад (когда ему ещё не дали Нобелевскую премию): если ИИ прочитает и усвоит "Государя" Никколо Макиавелли, странно будет не ожидать от него макиавелистического поведения. Сразу, конечно, возникает вопрос, насколько такое поведение усилится (и будет ещё лучше скрываться) у грядущих гораздо более мощных моделей? В общем, наступающий 2025 год обещает быть очень интересным.

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations

Apollo Research

Frontier Models are Capable of In-context Scheming — Apollo Research

Apollo Research evaluated frontier models for in-context scheming capabilities. We found that multiple frontier models are capable of in-context scheming when strongly nudged to pursue a goal (and sometimes even without strong goal nudging). In this example…