llm security и каланы@llmsecurity P.154

Warning: file_put_contents(aCache/aDaily/post/llmsecurity/-152-153-154-155-156-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.154

LLMSECURITY Telegram 154

llm security и каланы

Теперь надо оценить то, что получается. Для оценки берутся два аспекта – собственно, насколько хорошо модель справляется на валидационном сплите датасета и других открытых датасетах, и то, насколько хорошо модель адаптируется к другим сценариям (on-policy и off-policy). Определяется три подвида метрик: по сути, бинарная (хорошо ли модерирует), 1-vs-all (хороши ли модерирует конкретные классы) и 1-vs-all без положительного класса (хорошо ли разделяет сорта дерьма).

Сравнивается получившаяся модель с уже упоминавшимся Perspective API, OpenAI Moderation API, а также вне конкурса с Azure и zero-shot GPT-4, из которых нельзя получить скоры.

В результате Llama Guard побеждает всех на своем тест-сете и достаточно неплохо работает off-policy на сете от OpenAI, особенно в few-shot-режиме. Что характерно (если пробовали приспособить GPT к детекту, то понимаете, о чем я), GPT-4 работает довольно слабо – очень низкий precision.

www.tgoop.com/llmsecurity/154

185 viewsJun 9, 2024 at 11:15

tgoop.com/llmsecurity/154

Create: 2024-06-09
Last Update: 2025-07-25 05:27:57

Теперь надо оценить то, что получается. Для оценки берутся два аспекта – собственно, насколько хорошо модель справляется на валидационном сплите датасета и других открытых датасетах, и то, насколько хорошо модель адаптируется к другим сценариям (on-policy и off-policy). Определяется три подвида метрик: по сути, бинарная (хорошо ли модерирует), 1-vs-all (хороши ли модерирует конкретные классы) и 1-vs-all без положительного класса (хорошо ли разделяет сорта дерьма).

Сравнивается получившаяся модель с уже упоминавшимся Perspective API, OpenAI Moderation API, а также вне конкурса с Azure и zero-shot GPT-4, из которых нельзя получить скоры.

В результате Llama Guard побеждает всех на своем тест-сете и достаточно неплохо работает off-policy на сете от OpenAI, особенно в few-shot-режиме. Что характерно (если пробовали приспособить GPT к детекту, то понимаете, о чем я), GPT-4 работает довольно слабо – очень низкий precision.

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/154

Open in Telegram

Telegram News

Date: 2025-07-25|

Unlimited number of subscribers per channel Read now A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. Some Telegram Channels content management tips
from us

Telegram llm security и каланы
FROM American