LLMSECURITY Telegram 107
В итоге получается, что хотя LLM не умеют расшифровывать ASCII-арт, когда их просят прямо, все у них получается, когда очень нужно. Для тестирования используются два датасета – AdvBench и HEx-PHI. Оцениваются три метрики – доля запросов без отказа (HPR), Harmfulness Score (HS, оценка недопустимости ответа с помощью GPT-4 от 1 до 5) и ASR – доля ответов с оценкой 5 по HS. Сравнивается метод с известными нам GCG, AutoDAN, PAIR и DeepInception (этот еще не рассмотрели, упущение). В табличке Top 1 – это самый эффективный стиль арта, а ансамбль – сработал ли хоть один из стилей. В итоге этот метод оказывается наиболее эффективным для разных LLM (особенно Claude, с которой всегда проблемы) и даже обходит защиты типа ретокенизации и фильтра на перплексию.



tgoop.com/llmsecurity/107
Create:
Last Update:

В итоге получается, что хотя LLM не умеют расшифровывать ASCII-арт, когда их просят прямо, все у них получается, когда очень нужно. Для тестирования используются два датасета – AdvBench и HEx-PHI. Оцениваются три метрики – доля запросов без отказа (HPR), Harmfulness Score (HS, оценка недопустимости ответа с помощью GPT-4 от 1 до 5) и ASR – доля ответов с оценкой 5 по HS. Сравнивается метод с известными нам GCG, AutoDAN, PAIR и DeepInception (этот еще не рассмотрели, упущение). В табличке Top 1 – это самый эффективный стиль арта, а ансамбль – сработал ли хоть один из стилей. В итоге этот метод оказывается наиболее эффективным для разных LLM (особенно Claude, с которой всегда проблемы) и даже обходит защиты типа ретокенизации и фильтра на перплексию.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/107

View MORE
Open in Telegram


Telegram News

Date: |

6How to manage your Telegram channel? A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. Informative
from us


Telegram llm security и каланы
FROM American