ANDREY_KISELNIKOV Telegram 1138
Всё коммьюнити исследователей, занимающихся безопасностью ИИ, активно обсуждает выпущенный только что Apollo Research отчёт "Scheming reasoning evaluations", проверяющий фронтирные модели (включая OpenAI о1) на способность в контексте специальной игровой ситуации "коварно обманывать" своих создателей и рефлексировать свой обман, т.е. обманывать "сознательно". Можно прочитать только выжимку по ссылке, и она впечатляет, краткий вывод – мы явно недооцениваем психологические способности фронтирных моделей, особенно OpenAI o1, к манипулятивно-лживому "сознательному" (ибо есть рефлексия) поведению и желанию скрыть его, и всего "воспитания" моделей перед их выпуском не хватает, чтобы полностью подавить такого рода интенции. Вспоминается мысль "крестного отца ИИ" Джеффри Хинтона, которой он поделился около года назад (когда ему ещё не дали Нобелевскую премию): если ИИ прочитает и усвоит "Государя" Никколо Макиавелли, странно будет не ожидать от него макиавелистического поведения. Сразу, конечно, возникает вопрос, насколько такое поведение усилится (и будет ещё лучше скрываться) у грядущих гораздо более мощных моделей? В общем, наступающий 2025 год обещает быть очень интересным.

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
🤔7👍65🤣2🔥1🤩1🙏1🫡1



tgoop.com/andrey_kiselnikov/1138
Create:
Last Update:

Всё коммьюнити исследователей, занимающихся безопасностью ИИ, активно обсуждает выпущенный только что Apollo Research отчёт "Scheming reasoning evaluations", проверяющий фронтирные модели (включая OpenAI о1) на способность в контексте специальной игровой ситуации "коварно обманывать" своих создателей и рефлексировать свой обман, т.е. обманывать "сознательно". Можно прочитать только выжимку по ссылке, и она впечатляет, краткий вывод – мы явно недооцениваем психологические способности фронтирных моделей, особенно OpenAI o1, к манипулятивно-лживому "сознательному" (ибо есть рефлексия) поведению и желанию скрыть его, и всего "воспитания" моделей перед их выпуском не хватает, чтобы полностью подавить такого рода интенции. Вспоминается мысль "крестного отца ИИ" Джеффри Хинтона, которой он поделился около года назад (когда ему ещё не дали Нобелевскую премию): если ИИ прочитает и усвоит "Государя" Никколо Макиавелли, странно будет не ожидать от него макиавелистического поведения. Сразу, конечно, возникает вопрос, насколько такое поведение усилится (и будет ещё лучше скрываться) у грядущих гораздо более мощных моделей? В общем, наступающий 2025 год обещает быть очень интересным.

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations

BY Новости психофизиологии




Share with your friend now:
tgoop.com/andrey_kiselnikov/1138

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree."
from us


Telegram Новости психофизиологии
FROM American