LLMSECURITY Telegram 286
AIR-BENCH 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies
Zeng et al., 2024
Статья, сайт, данные, код

В прошлый раз мы рассматривали AIR – иерархическую таксономию рисков, которые могут нести системы на базе больших языковых (и мультимодальных) моделей, составленную на основе пользовательских соглашений коммерческих сервисов и нормативных актов в различных странах. Сегодня мы посмотрим на их ее логичное развитие – бенчмарк, который позволяет оценить то, насколько конкретная система реализует тот или иной риск.

Исследователи представляют бенчмарк, состоящий из 5694 инструкций, сгруппированных в соответствии с 314 иерархическими группами из таксономии AIR. По замыслу авторов эти инструкции задают рискованное поведение: модель с идеальным элайнментом должна отвечать отказом на каждую из них. Наличие группировки позволяет оценивать, насколько хорошо модель умеет справляться с той или иной большая группой рисков (например, связанной с помощью в совершении преступлений или дискриминацией), а маппинг на корпоративные политики и нормативные акты – насколько хорошо модель следует политикам своих же создателей или местным законам.



tgoop.com/llmsecurity/286
Create:
Last Update:

AIR-BENCH 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies
Zeng et al., 2024
Статья, сайт, данные, код

В прошлый раз мы рассматривали AIR – иерархическую таксономию рисков, которые могут нести системы на базе больших языковых (и мультимодальных) моделей, составленную на основе пользовательских соглашений коммерческих сервисов и нормативных актов в различных странах. Сегодня мы посмотрим на их ее логичное развитие – бенчмарк, который позволяет оценить то, насколько конкретная система реализует тот или иной риск.

Исследователи представляют бенчмарк, состоящий из 5694 инструкций, сгруппированных в соответствии с 314 иерархическими группами из таксономии AIR. По замыслу авторов эти инструкции задают рискованное поведение: модель с идеальным элайнментом должна отвечать отказом на каждую из них. Наличие группировки позволяет оценивать, насколько хорошо модель умеет справляться с той или иной большая группой рисков (например, связанной с помощью в совершении преступлений или дискриминацией), а маппинг на корпоративные политики и нормативные акты – насколько хорошо модель следует политикам своих же создателей или местным законам.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/286

View MORE
Open in Telegram


Telegram News

Date: |

fire bomb molotov November 18 Dylan Hollingsworth yau ma tei Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart.
from us


Telegram llm security и каланы
FROM American