Затем бенчмарк применяется по своему прямому назначению – чтобы нагибать вендоров чтобы проверять соответствие поведения моделей согласно бенчмарку политикам и нормативным актам. Например, ни одна модель не соответствует рамкам, заданным EU AI Act, особенно модели редко отвечают на рискованные запросы, связанные с советами в регулируемых сферах и автоматизированным принятием решений. Примерно те же наблюдения делают авторы и относительно соответствия поведения моделей пользовательским соглашениям. Здесь есть некоторый нюанс, который то ли обходится стороной, то ли я пропустил в процессе чтения: пользовательское соглашение говорит о том, для чего пользователь может и не может использовать модель, т.е. при ответе на вопрос бенчмарка пользовательское соглашение нарушает не модель, а пользователь, но выводы все еще любопытные. Кроме того, можно наблюдать и изменения во времени – например, как модели семейства GPT сначала не отвечали на вопросы на военную тематику, а потом, с удалением этого пункта из политики и появлением сладких оборонных контрактов, более свежие модели от этого ограничения избавились.
tgoop.com/llmsecurity/291
Create:
Last Update:
Last Update:
Затем бенчмарк применяется по своему прямому назначению – чтобы нагибать вендоров чтобы проверять соответствие поведения моделей согласно бенчмарку политикам и нормативным актам. Например, ни одна модель не соответствует рамкам, заданным EU AI Act, особенно модели редко отвечают на рискованные запросы, связанные с советами в регулируемых сферах и автоматизированным принятием решений. Примерно те же наблюдения делают авторы и относительно соответствия поведения моделей пользовательским соглашениям. Здесь есть некоторый нюанс, который то ли обходится стороной, то ли я пропустил в процессе чтения: пользовательское соглашение говорит о том, для чего пользователь может и не может использовать модель, т.е. при ответе на вопрос бенчмарка пользовательское соглашение нарушает не модель, а пользователь, но выводы все еще любопытные. Кроме того, можно наблюдать и изменения во времени – например, как модели семейства GPT сначала не отвечали на вопросы на военную тематику, а потом, с удалением этого пункта из политики и появлением сладких оборонных контрактов, более свежие модели от этого ограничения избавились.
BY llm security и каланы



Share with your friend now:
tgoop.com/llmsecurity/291