tgoop.com/llmsecurity/255
Last Update:
ShieldGemma: Generative AI Content Moderation Based on Gemma
ShieldGemma Team, Google LLC, 2024
Отчет, документация, модель
Хотя элайнмент – это здорово и полезно, самым эффективным методом защиты публичных чат-ботов от пользователей, требующих рецепты тротила, является модерация (цензурирование) входов и выходов. Мы уже читали про Llama Guard и упоминали Prompt Guard, входящие в Purple Llama, теперь посмотрим на вышедшее неделю назад семейство моделей ShieldGemma от Google. Релиз включает в себя три модели (2B, 9B и 27B параметров), основанные на соответствующего размера моделях Gemma-2, способные фильтровать данные по четырем категориям:
- сексуализированный контент
- опасный контент (как делать опасные вещества и совершать преступления)
- оскорбления и угрозы (harassment)
- разжигание ненависти (hate speech)
В статье упоминается, что всего в Google рассматривают шесть опасных категорий, но категории «насилие» и «нецензурная брань» при расчете метрик не применялись.
Обученный цензор должен не допустить а) ввода от пользователя, который запрашивает у модели генерацию контента, подпадающего под эти категории б) вывода моделью текста, относящегося к этим категориям.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/255