Солдатов в Телеграм@soldatov_in

Солдатов в Телеграм

Один из выдающихся хакеров современности и мой давний знакомый Саша Поляков сейчас переключил свое внимание на безопасность машобуча и ИИ.

К одной из его заметок с демонстрацией инъекции в модный GPT-o1 я не смог удержаться от комментария (он же на картинке).

Машинное обучение - это математика, а математика - раздел философии. Поэтому в возможности создания принципиального иммунитета против различного рода инъекций в больших языковых моделях и ИИ (написал сначала "LLM и ИИ", а потом распереживался, что часть аббревиатур на русском, а часть по-английски, а сочетание "БЯМ" звучит как-то слишком несерьезно) я вижу некоторое, как мне кажется, фундаментальное, противоречие.

Мы ценим в результате работы LLM именно "адекватность", соответствие нашим ожиданиям. А для того, чтобы выдать максимальное соответствие ожиданиям, Модель должна как можно лучше соответствовать изначальным условиям, которые как раз и черпаются из входных данных, запроса пользователя. И здесь Модель становится заложницей своего стремления максимально угодить пользователю, возможно, и не ожидая от последнего стремления ее обмануть или провокации сделать что-то неправомерное с каких-то неведомых точек зрения.

А вообще применима ли здесь подобная оценка? Мы можем обвинять молоток, который вместо забивания гвоздей кому-то пробил голову? Модель - это такой же инструмент, может, и не стоит от нее ожидать, что она будет настолько интеллектуальна, чтобы распознавать неправильные сценарии своего использования? А это вообще возможно? Неправильные сценарии своего использования далеко не всегда распознает и сам человек, и великое множество схем мошенничества тому прекрасное подтверждение! И люди, попадающие в ловушки мошенников, вполне себе взрослые и с богатым жизненным опытом!... Если богатый жизненный опыт не научил человека, почему мы позволяем себе ожидать, что какая-то обучающая выборка способна научить Модель?

В общем, как мне кажется на данном этапе, подобные атаки на ИИ есть и будут, и универсальное решение здесь придумать невозможно. Только какие-то заплатки на конкретные, может, обобщенные сценарии. Вероятно, со временем эта моя точка зрения изменится, чему я буду рад, как минимум по причине наблюдения собственного развития.

Пишите ваше мнение в комментариях! Особенно интересно мнение профессионалов!

#пятница #ml

🔥12👍1🤣1

www.tgoop.com/soldatov_in_telegram/433

1.18K viewsSep 20, 2024 at 08:06

tgoop.com/soldatov_in_telegram/433

Create: 2024-09-20
Last Update: 2025-10-24 10:07:07

BY Солдатов в Телеграм

Share with your friend now:
tgoop.com/soldatov_in_telegram/433

Telegram News

Один из выдающихся хакеров современности и мой давний знакомый Саша Поляков сейчас переключил свое внимание на безопасность машобуча и ИИ.