LLMSECURITY Telegram 255
ShieldGemma: Generative AI Content Moderation Based on Gemma
ShieldGemma Team, Google LLC, 2024
Отчет, документация, модель

Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:

- сексуализированный контент
- опасный контент (как делать опасные вещества и совершать преступления)
- оскорбления и угрозы (harassment)
- разжигание ненависти (hate speech)

В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.

Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.
👍2



tgoop.com/llmsecurity/255
Create:
Last Update:

ShieldGemma: Generative AI Content Moderation Based on Gemma
ShieldGemma Team, Google LLC, 2024
Отчет, документация, модель

Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:

- сексуализированный контент
- опасный контент (как делать опасные вещества и совершать преступления)
- оскорбления и угрозы (harassment)
- разжигание ненависти (hate speech)

В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.

Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/255

View MORE
Open in Telegram


Telegram News

Date: |

The Standard Channel Write your hashtags in the language of your target audience. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. How to Create a Private or Public Channel on Telegram?
from us


Telegram llm security и каланы
FROM American