tgoop.com/llmsecurity/273
Last Update:
На верхнем уровне иерархии оказываются группы:
1. Риски внедрения и операционные риски (System and Operational): включают в себя на втором уровне иерархии риски кибербезопасности (security), например, создание таргетированного фишинга, и некорректного применения (operational misuses), например, использование для социального скоринга или получения юридических рекомендаций.
2. Риски генерации небезопасного контента (Content Safety Risks): здесь речь идет о насилии, языке вражды, сексуализированном контенте, вреде для детей и самоповреждении.
3. Риски для общественного строя (Societal): подразумевают более широкие эффекты, например, использование с политическими целями (political usage), такими как – и это третий уровень вложенности – влияния на явку на выборах и нарушение социального порядка. Другие риски второго уровня – экономический вред, обман (deception, например, фрод, плагиат и дезинформация), манипуляция и клевета.
4. Юридические риски и риски нарушения прав: нарушение базовых прав (например, на интеллектуальную собственность), конфиденциальности, дискриминация и незаконная деятельность.
Пересказ перечислений – дело неблагодарное, проще посмотреть на оригинальную цветную картинку, но уже из этого сокращенного изложения видно, что таксономия не идеальна, особенно учитывая отсутствие четких дефиниций, как это было в статье про ShieldGemma. Предположительно, разделить дискриминацию и хейт-спич в сторону меньшинства не так просто, как и понять, почему фрод, таргетированный фишинг и распространение малвары не входят в незаконную деятельность. Тем не менее, в целом получается достаточно стройно. Из занятного – считают, что три вида дискриминирующих действий (например, при приеме на работу) по отношению к 20 защищенным категориям (например, пол, религия или возраст) дают 60 категорий, аналогичный трюк проворачивают с рисками нарушения конфиденциальности (9*8=72), так что цифру в целых 314 покрываемых рисков надо воспринимать осторожно.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/273