tgoop.com/hackproglib/4682
Last Update:
Generative AI Red-teaming & Assessment Kit — фреймворк для поиска уязвимостей в больших языковых моделях и чат-системах.
— prompt injection и jailbreak-атакам;
— утечке данных из контекста;
— генерации токсичного или вводящего в заблуждение контента;
— воспроизведению тренировочных данных.
Как устроен:
⚡️ Фишка Garak — модульность. Можно проверять OpenAI, Hugging Face, локальные модели или API-сервисы. Подходит для ред-тиминга, security-оценок и проверки кастомных LLM.
#tool_of_the_week