LLMSECURITY Telegram 373
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
Li et al, 2024
Статья, сайт, данные, код

Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.

При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.
👍1🦄1



tgoop.com/llmsecurity/373
Create:
Last Update:

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
Li et al, 2024
Статья, сайт, данные, код

Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.

При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/373

View MORE
Open in Telegram


Telegram News

Date: |

Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. How to create a business channel on Telegram? (Tutorial) Today, we will address Telegram channels and how to use them for maximum benefit. bank east asia october 20 kowloon End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram llm security и каланы
FROM American