tgoop.com/IngeniumNotes/1368
Last Update:
Раньше совсем часто, в последние пару месяцев чуть пореже, раздавались предложения переложить работу по управлению чем-то опасным на ИИ, и причем сделать это массово. В некоторых случаях на откуп ИИ предлагалось передать даже системы вооружения.
В связи с этим вспоминается старый фильм "Отроки во Вселенной", эпизод про "А и Б сидели на трубе". А в реальности с ИИ можно устойчиво проворачивать подобные фокусы?
Ответ на этот вопрос дает недавняя научная статья "Adversarial Policies Beat Superhuman Go AIs" (интервью с авторами статьи на Scientific American). В ней изучались способы обмана ИИ KataGo. Напомню, появление этой системы, способной обыгрывать в го игроков-людей высшего уровня, четыре года назад было воспринято как большое событие.
Авторы работы натравили на KataGo специальные ИИ, нацеленные на поиск уязвимостей. И хотя сами эти ИИ играли в го весьма посредственно, хуже среднего игрока, KataGo они устойчиво выигрывали.
Вольный перевод аннотации:
"Мы атакуем современную систему искусственного интеллекта для игры в го KataGo, тренируя против нее ИИ, добиваясь > 97% выигрышей против KataGo, работающей не максимальном уровне сложности. Наши ИИ выигрывают не за счет хорошего уровня игры в го, а за счет того, что обманными маневрами заставляют KataGo совершать серьезные ошибки. Тактики, разработанные нашими ИИ, люди могут реализовать без алгоритмической помощи - и в результате обыгрывать лучшие ИИ.
Уязвимости, обнаруженные нашим методом, сохраняются даже у агентов KataGo, специально обученных для защиты от этих конкретных тактик обмана. Наши результаты демонстрируют, что даже системы "сверхчеловеческого" ИИ могут иметь неожиданные режимы сбоев."
Авторы работы различными способами модифицировали KataGo, а также испытывали другие системы игры в го. Но даже после всех модификаций эти системы проигрывали специальным ИИ не менее, чем в 78% случаев.
Резюмируя полученные результаты, Адам Глив (исполнительный директор FAR AI, некоммерческой исследовательской организации в Беркли, соавтор статьи), отметил:
"Ключевым выводом работы является то, что эти уязвимости ИИ крайне трудно устранить. Если мы не можем решить проблему в простой области, такой как игра в го, то в ближайшей перспективе, похоже, маловероятно исправление подобных проблем в таких системах, как ChatGPT".
#ИИ
BY Заметки инженера - исследователя

Share with your friend now:
tgoop.com/IngeniumNotes/1368