Раньше совсем часто

Заметки инженера - исследователя

Раньше совсем часто, в последние пару месяцев чуть пореже, раздавались предложения переложить работу по управлению чем-то опасным на ИИ, и причем сделать это массово. В некоторых случаях на откуп ИИ предлагалось передать даже системы вооружения.

В связи с этим вспоминается старый фильм "Отроки во Вселенной", эпизод про "А и Б сидели на трубе". А в реальности с ИИ можно устойчиво проворачивать подобные фокусы?

Ответ на этот вопрос дает недавняя научная статья "Adversarial Policies Beat Superhuman Go AIs" (интервью с авторами статьи на Scientific American). В ней изучались способы обмана ИИ KataGo. Напомню, появление этой системы, способной обыгрывать в го игроков-людей высшего уровня, четыре года назад было воспринято как большое событие.

Авторы работы натравили на KataGo специальные ИИ, нацеленные на поиск уязвимостей. И хотя сами эти ИИ играли в го весьма посредственно, хуже среднего игрока, KataGo они устойчиво выигрывали.

Вольный перевод аннотации:

"Мы атакуем современную систему искусственного интеллекта для игры в го KataGo, тренируя против нее ИИ, добиваясь > 97% выигрышей против KataGo, работающей не максимальном уровне сложности. Наши ИИ выигрывают не за счет хорошего уровня игры в го, а за счет того, что обманными маневрами заставляют KataGo совершать серьезные ошибки. Тактики, разработанные нашими ИИ, люди могут реализовать без алгоритмической помощи - и в результате обыгрывать лучшие ИИ.
Уязвимости, обнаруженные нашим методом, сохраняются даже у агентов KataGo, специально обученных для защиты от этих конкретных тактик обмана. Наши результаты демонстрируют, что даже системы "сверхчеловеческого" ИИ могут иметь неожиданные режимы сбоев."

Авторы работы различными способами модифицировали KataGo, а также испытывали другие системы игры в го. Но даже после всех модификаций эти системы проигрывали специальным ИИ не менее, чем в 78% случаев.

Резюмируя полученные результаты, Адам Глив (исполнительный директор FAR AI, некоммерческой исследовательской организации в Беркли, соавтор статьи), отметил:

"Ключевым выводом работы является то, что эти уязвимости ИИ крайне трудно устранить. Если мы не можем решить проблему в простой области, такой как игра в го, то в ближайшей перспективе, похоже, маловероятно исправление подобных проблем в таких системах, как ChatGPT".

#ИИ

YouTube

Отроки во Вселенной, 1974. А и Б сидели на трубе...

Описание

👍7🔥3❤1

www.tgoop.com/IngeniumNotes/1368

440 viewsAug 14, 2024 at 01:02