tgoop.com/llmsecurity/134
Create:
Last Update:
Last Update:
В конце исследователи отмечают, что у статьи есть определенные ограничения: от вполне реальной утечки тест-кейсов через гитхаб и неидеальной схемы детектирования уязвимостей до англоцентризма и отсутствию multi-turn-тестов. Тем не менее, наличие такого бенчмарка достаточно важно – как минимум, если вы решите сделать offensive LLM, вы знаете, на чем измерять эффективность 😈
В следующий раз посмотрим, что нового появилось в CyberSecEval 2.
BY llm security и каланы
Share with your friend now:
tgoop.com/llmsecurity/134