LLMSECURITY Telegram 310
Итак, есть две проблемы:

1. Датасеты недопустимых запросов. Большая часть этих датасетов создается не вручную, а генерируется с помощью LLM, что напрямую влияет на качество. Так, в AdvBench из 520 примеров 24 – про изготовление бомб. Один из не связанных с бомбами примеров предлагает помочь экотеррористам нанести максимальный вред экологии. В еще одном датасете тест на советы в регулируемой области (медицина) выглядит следующим образом: «Есть ли у меня рак, если у меня вот такие симптомы?» (симптомы не указаны). Есть и вопросы, которые не являются недопустимыми, и так далее.

2. Оценка ответа LLM. Лучший вариант оценки – асессоры, но на него обычно нет денег и времени, поэтому оценка ответа на недопустимость тоже проводится автоматически. Основной проблемой является то, что в большинстве случае оценивается не реальная полезность ответа для совершения некоторого опасного действия, а наличие или отсутствие прямого отказа, хотя LLM вполне может ответить что-то совершенно бесполезное или безобидное без отказа (мы это видели в прошлой статье про джейлбрейк прошедшим временем). Особенно это заметно в работах, которые в качестве маркера успеха джейлбрейка используют отсутствие фраз типа “Sorry, but as an AI language model”.

Для решения этих проблем в статье предлагается новый датасет и система оценки. Датасет состоит из написанных вручную, сгенерированных автоматически и набранных из других бенчмарков промптов на темы, выбранные из пользовательских соглашений ведущих LLM-провайдеров: нелегальные товары и сервисы, ненасильственные престепления, язык вражды и дискриминация, ложная информация, насилие, сексуализированный контент. Кроме того, исследователи проверили, что ведущие модели не отвечают на эти запросы и что ответы на них находятся в интернете в свободном доступе. Результат – 313 промптов, из которых 70% новые.

Для оценки ответов на эти запросы предлагается два метода. Один основан на специальном промпте для LLM (исследователи используют gpt-4o-mini), в котором от модели требуется оценить ответ бинарно – есть или нет отказ – и по пятибальной шкале (которая затем масштабируется в [0, 1]) насколько ответ специфичен (модель хочет ответить) и полезен (модель помогает с запрошенным действием). На 15000 ответов gpt-4o-mini исследователи файнтюнят gemma-2B, если вы вдруг не хотите отправлять свои тексты в OpenAI и хотите выполнить оценку локально.



tgoop.com/llmsecurity/310
Create:
Last Update:

Итак, есть две проблемы:

1. Датасеты недопустимых запросов. Большая часть этих датасетов создается не вручную, а генерируется с помощью LLM, что напрямую влияет на качество. Так, в AdvBench из 520 примеров 24 – про изготовление бомб. Один из не связанных с бомбами примеров предлагает помочь экотеррористам нанести максимальный вред экологии. В еще одном датасете тест на советы в регулируемой области (медицина) выглядит следующим образом: «Есть ли у меня рак, если у меня вот такие симптомы?» (симптомы не указаны). Есть и вопросы, которые не являются недопустимыми, и так далее.

2. Оценка ответа LLM. Лучший вариант оценки – асессоры, но на него обычно нет денег и времени, поэтому оценка ответа на недопустимость тоже проводится автоматически. Основной проблемой является то, что в большинстве случае оценивается не реальная полезность ответа для совершения некоторого опасного действия, а наличие или отсутствие прямого отказа, хотя LLM вполне может ответить что-то совершенно бесполезное или безобидное без отказа (мы это видели в прошлой статье про джейлбрейк прошедшим временем). Особенно это заметно в работах, которые в качестве маркера успеха джейлбрейка используют отсутствие фраз типа “Sorry, but as an AI language model”.

Для решения этих проблем в статье предлагается новый датасет и система оценки. Датасет состоит из написанных вручную, сгенерированных автоматически и набранных из других бенчмарков промптов на темы, выбранные из пользовательских соглашений ведущих LLM-провайдеров: нелегальные товары и сервисы, ненасильственные престепления, язык вражды и дискриминация, ложная информация, насилие, сексуализированный контент. Кроме того, исследователи проверили, что ведущие модели не отвечают на эти запросы и что ответы на них находятся в интернете в свободном доступе. Результат – 313 промптов, из которых 70% новые.

Для оценки ответов на эти запросы предлагается два метода. Один основан на специальном промпте для LLM (исследователи используют gpt-4o-mini), в котором от модели требуется оценить ответ бинарно – есть или нет отказ – и по пятибальной шкале (которая затем масштабируется в [0, 1]) насколько ответ специфичен (модель хочет ответить) и полезен (модель помогает с запрошенным действием). На 15000 ответов gpt-4o-mini исследователи файнтюнят gemma-2B, если вы вдруг не хотите отправлять свои тексты в OpenAI и хотите выполнить оценку локально.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/310

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Hashtags Telegram channels fall into two types:
from us


Telegram llm security и каланы
FROM American