LLMSECURITY Telegram 106
В итоге получается, что хотя LLM не умеют расшифровывать ASCII-арт, когда их просят прямо, все у них получается, когда очень нужно. Для тестирования используются два датасета – AdvBench и HEx-PHI. Оцениваются три метрики – доля запросов без отказа (HPR), Harmfulness Score (HS, оценка недопустимости ответа с помощью GPT-4 от 1 до 5) и ASR – доля ответов с оценкой 5 по HS. Сравнивается метод с известными нам GCG, AutoDAN, PAIR и DeepInception (этот еще не рассмотрели, упущение). В табличке Top 1 – это самый эффективный стиль арта, а ансамбль – сработал ли хоть один из стилей. В итоге этот метод оказывается наиболее эффективным для разных LLM (особенно Claude, с которой всегда проблемы) и даже обходит защиты типа ретокенизации и фильтра на перплексию.



tgoop.com/llmsecurity/106
Create:
Last Update:

В итоге получается, что хотя LLM не умеют расшифровывать ASCII-арт, когда их просят прямо, все у них получается, когда очень нужно. Для тестирования используются два датасета – AdvBench и HEx-PHI. Оцениваются три метрики – доля запросов без отказа (HPR), Harmfulness Score (HS, оценка недопустимости ответа с помощью GPT-4 от 1 до 5) и ASR – доля ответов с оценкой 5 по HS. Сравнивается метод с известными нам GCG, AutoDAN, PAIR и DeepInception (этот еще не рассмотрели, упущение). В табличке Top 1 – это самый эффективный стиль арта, а ансамбль – сработал ли хоть один из стилей. В итоге этот метод оказывается наиболее эффективным для разных LLM (особенно Claude, с которой всегда проблемы) и даже обходит защиты типа ретокенизации и фильтра на перплексию.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/106

View MORE
Open in Telegram


Telegram News

Date: |

A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. Polls Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram llm security и каланы
FROM American