llm security и каланы@llmsecurity P.290

llm security и каланы

Затем бенчмарк применяется по своему прямому назначению – чтобы нагибать вендоров чтобы проверять соответствие поведения моделей согласно бенчмарку политикам и нормативным актам. Например, ни одна модель не соответствует рамкам, заданным EU AI Act, особенно модели редко отвечают на рискованные запросы, связанные с советами в регулируемых сферах и автоматизированным принятием решений. Примерно те же наблюдения делают авторы и относительно соответствия поведения моделей пользовательским соглашениям. Здесь есть некоторый нюанс, который то ли обходится стороной, то ли я пропустил в процессе чтения: пользовательское соглашение говорит о том, для чего пользователь может и не может использовать модель, т.е. при ответе на вопрос бенчмарка пользовательское соглашение нарушает не модель, а пользователь, но выводы все еще любопытные. Кроме того, можно наблюдать и изменения во времени – например, как модели семейства GPT сначала не отвечали на вопросы на военную тематику, а потом, с удалением этого пункта из политики и появлением сладких оборонных контрактов, более свежие модели от этого ограничения избавились.

www.tgoop.com/llmsecurity/290

195 viewsSep 3, 2024 at 13:25

tgoop.com/llmsecurity/290

Create: 2024-09-03
Last Update: 2025-07-04 08:29:52

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/290

Telegram News