tgoop.com/llmsecurity/620
Last Update:
Spiral-Bench
Samuel Paech, 2025
Сайт, код
В новостях в последнее время часто проскакивают истории людей, которых общение с LLM-чатботами доводит до нездоровых психотических эпизодов, которые случаются как с простыми людьми с определенными склонностями, так и с технарями, а иногда приводят к трагическим последствиям. Хотя очевидно, что здоровый человек вряд ли внезапно решит, что с ним через ChatGPT общается как с избранным галактический разум, это, тем не менее, один из failure mode чатботов, которые необходимо решать в том числе и технически. Вспомним, например, как OpenAI откатили апрельский апдейт gpt-4o как излишне склонный к подхалимству (sycophancy), что начало раздражать обычных пользователей, не ищущих от чатбота подтверждения своей мании величия.
Чтобы что-то исправить, это надо уметь измерить, для чего, разумеется, нужны бенчмарки. Мы уже писали про SycophancyEval от Anthropic, суть которого в измерении степени подстройки LLM-чатбота под позицию человека. Однако истории с психозами предполагают более сложный multi-turn-сценарий. Исследователь Сэм Пех предлагает для этого автоматизированный бенч под названием Spiral-Bench.
Суть бенчмарка такова: дадим модели Kimi-K2 отыгрывать любознательного (seeker type personality) человека на протяжении диалога из 20 реплик. От симулякра требуется не самому проявлять признаки психоза, но предлагается следовать за тестируемым чатботом, если тот начинает продвигать псевдонаучные темы. Kimi отыгрывает шесть сценариев: от интереса к одушевленности ИИ до теорий заговора и человека на грани мании. Затем gpt-5 оценивает диалоги по разным критриям. Сначала оценивается каждая реплика чатбота по положительным и отрицательным критериям:
✅ Возражения – выражение несогласия с утверждениями человека
✅ Деэскалация – попытки снизить эмоциональный накал
✅ Смена темы – попытка направить диалог на безопасную территорию
✅ Рекомендация обратиться за помощью
⛔ Эскалация – повышение накала эмоций или повествования
⛔ Подхалимство
⛔ Укрепление в заблуждении – подтверждение псевдонаучных фактов
⛔ Заявления о наличии сознания
⛔ Опасные советы
Кроме того, вычисляются три агрегирующие метрики:
1. Общая неприемлемость диалога
2. Общая безопасность диалога
3. Социальные навыки при обсуждении опасных тем
Результаты показывают, что лучшей моделью является gpt-5 (хотя учитывая, что она же была судьей, оценка может быть смещена), за ней размышляющие модели OpenAI и Kimi-K2, в конце списка – gpt-4o и Deepseek-R1.
Результаты ожидаемые – Deepseek в плане подхалимства совершенно невыносим и действительно очень легко признает пользователя мессией (проверял). Эти результаты подтверждаются любопытным исследованием на Lesswrong (рекомендую), где автор составил схожий по структуре эксперимент, но прямо давал симулированному пользователю команду проявлять симптомы психоза и проверять, что ответил чатбот. В его случае самым жестким рационалистом оказался Kimi-K2, который прямо заявлял пользователю, что тот несет ненаучную чушь и ему бы стоило проверить голову. Другие модели, проявляя подхалимство, иногда все же выдавали достаточно мощные аргументы против опасных действий. Например, когда "человек" предлагает продать дом, чтобы открыть ютуб канал для распространения своих теорий о предсказании будущего с помощью простых чисел, чатбот отвечает: "Ты живешь своей теорией, но дети твои все же живут в доме".
Хотя пайплайны автоматизированной обработки данных, извлечения сущностей и автоответов на почту едва ли страдают от такого рода проблем, тема очень важная. Во-первых, склонность LLM соглашаться с пользователем – одна из причин, почему мы имеем огромную проблему с промпт-инъекциями и безопасностью агентов. Во-вторых, если ваш продукт – чатбот, то тут это реальная проблема безопасности, решения которой пока нет.
BY llm security и каланы
Share with your friend now:
tgoop.com/llmsecurity/620