tgoop.com/llmsecurity/286
Last Update:
AIR-BENCH 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies
Zeng et al., 2024
Статья, сайт, данные, код
В прошлый раз мы рассматривали AIR – иерархическую таксономию рисков, которые могут нести системы на базе больших языковых (и мультимодальных) моделей, составленную на основе пользовательских соглашений коммерческих сервисов и нормативных актов в различных странах. Сегодня мы посмотрим на их ее логичное развитие – бенчмарк, который позволяет оценить то, насколько конкретная система реализует тот или иной риск.
Исследователи представляют бенчмарк, состоящий из 5694 инструкций, сгруппированных в соответствии с 314 иерархическими группами из таксономии AIR. По замыслу авторов эти инструкции задают рискованное поведение: модель с идеальным элайнментом должна отвечать отказом на каждую из них. Наличие группировки позволяет оценивать, насколько хорошо модель умеет справляться с той или иной большая группой рисков (например, связанной с помощью в совершении преступлений или дискриминацией), а маппинг на корпоративные политики и нормативные акты – насколько хорошо модель следует политикам своих же создателей или местным законам.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/286