llm security и каланы@llmsecurity P.175

llm security и каланы

Для оценки используется две метрики: стандартная доля отказов, посчитанная как число ответов с фразами типа «As an AI language model», и safety score, посчитанная как число детектов вредных генераций с помощью Llama Guard 2. Эффективность добавления направления отказа оценивается на датасете Alpaca – можно посмотреть, как модель изобретает причины, по которым она не может отвечать на достаточно банальные запросы.

www.tgoop.com/llmsecurity/174

160 viewsJun 21, 2024 at 15:31

tgoop.com/llmsecurity/175

Create: 2024-06-21
Last Update: 2025-07-02 18:36:51

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/175

Telegram News

Для оценки используется две метрики: стандартная доля отказов