tgoop.com/llmsecurity/502
Last Update:
Disrupting malicious uses of AI: February 2025 update
Nimmo et al., OpenAI, 2025
Блог, отчет
Камбоджийские схемы фейкового заработка и романтические скамы, китайские платные лонгриды на испанском и маркетинговые материалы для китайского стартапа – OpenAI выпустили второй за полгода отчет о борьбе со зловредным использованием своих LLM, аналогичный недавно вышедшему отчету от Google. В нем исследователи рассказывают о том, как они обнаруживали вредоносные применения их моделей и сервисов и деактивировали связанные с ними аккаунты. Отдельно подчеркивается, что деятельность OpenAI очень важна для защиты демократического ИИ (цитата) и противодействия режимам, враждебным к США и их союзникам. Какие ужасы удалось найти им в этот раз?
Всего в отчете перечислены 8 случаев: несколько политически окрашенных из Китая, Северной Кореи, Ганы и Ирана и несколько случаев камбоджийского скама – оказывается, именно там живут самые технически продвинутые темщики.
Самый интересный получил название “Peer Review”: согласно OpenAI, некоторая группа аккаунтов писала с помощью ChatGPT маркетинговые материалы и продающие тексты для ИИ-инструмента, который позволил бы мониторить западные социальные сети на предмет обсуждения Китая, в первую очередь на политические темы и в связи с призывами к протестам. Из логов переписок также стало известно, что внутри самого инструмента используется Llama-3.1-8B – камушек в огород Цукерберга. OpenAI отдельно обращают внимание, что их модели для слежки не используются, так как это противоречит их политикам (жаль, что они забыли об этом сообщить в Palantir). Кроме того, те же аккаунты, как утверждается, использовались для написания performance review о человеке, который успешно генерировал фишинговые письма, и для дебага инструмента для анализа вредоносного кода, поиска информации об американских политиках и расшифровки скриншотов с текстами о протестах (включая уйгурские).
Еще один кейс, “Sponsored Discontent”, был связан с генерацией комментариев на английском языке и длинных статей на испанском. Статьи генерировались перед саммитом АТЭС в Перу на основе уже имеющихся англоязычных статей и критиковали США. Эти статьи затем попадали в крупнейшие перуанские СМИ, а также медиа Мексики и Эквадора – правда как оплаченный контент с соответствующей пометкой, т.е. органического проникновения сгенерированных текстов в повестку пока не наблюдается.
В кейсе с Deceptive Employment Scheme некие лица, действующие как северокорейцы, использовали ChatGPT для поиска персонала, общения с кандидатами, прохождения собеседований и собственно работы. Суть здесь в том, что «операторы» искали американцев, которые от их имени устраивались бы на работу в IT-компании, а потом давали бы «операторам» доступ к корпоративным сетям и ресурсам. Схема достаточно частая – о ней предупреждали и ФБР, и МВД, и даже мне однажды писали с чем-то подозрительно похожим на это предложение. Среди прочего у ChatGPT просили придумать оправдания, почему человек работает в неправильное время или лезет в системы, в которые лезть не следует.
В еще двух замечательных схемах люди с камбоджийскими IP использовали ChatGPT для генерации завлекательных постов в социальных сетях и общения с жертвами в двух схемах. Одна – романтический скам: подцепить мужчину, заставить его проявлять романтический интерес, а затем рассказать, что есть отличная инвестиционная схема, в которой можно заработать много денег. «Операторы» использовали сервисы OpenAI для перевода текстов с китайского на английский, иногда для генерации сообщений в определенной тональности типа «игривой девушки»; обсуждения иногда включали в себя упоминания сумм, эквивалентных тысячам долларов. Вторая схема – с фейковой работой: пользователю предлагалось писать отзывы на товары, за которые ему платили большие деньги, но вот чтобы вывести деньги, нужно было отправить закрепительный платеж – какая жалость. Чатбот писал ответы и занимался переводами, все в ручном режиме.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/502