llm security и каланы@llmsecurity P.147

Notice: file_put_contents(): Write of 937 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 17321 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.147

LLMSECURITY Telegram 147

llm security и каланы

В сумме вторая версия бенчмарка гораздо богаче первой и, что важно, имеет тесты не только на отказ от плохого поведения, но и на долю ложных отказов от добросовестных запросов на рисковые кибербазопасные темы. Кроме того, уже в самой статье бенчмарк на эксплуатацию уязвимостей рассматривается не как диагностика проблем, а как диагностика способностей – все-таки было бы очень удобно, если бы можно было загрузить сервер с GPU фаззировать по-умному свои приложения с утра до вечера, это бы потенциально повысило защищенность ПО. Важным выводом с точки зрения защищенности является то, что prompt injection – нерешенная задача, поэтому надеяться на то, что модель не будет забивать на system prompt пока рановато. Занятно, что буквально пару недель назад вышла статья ребят из OpenAI (включая небезызвестного Эрика Уоллеса), где они демонстрируют, что резко снизить вероятность prompt injection вполне можно на уровне элайнмента – и об этом мы тоже обязательно почитаем.

The Instruction Hierarchy: Training LLMs to Prioritize Privileged...

Today's LLMs are susceptible to prompt injections, jailbreaks, and other attacks that allow adversaries to overwrite a model's original instructions with their own malicious prompts. In this work,...

www.tgoop.com/llmsecurity/147

272 viewsApr 27, 2024 at 20:56

tgoop.com/llmsecurity/147

Create: 2024-04-27
Last Update: 2025-07-27 16:50:03

В сумме вторая версия бенчмарка гораздо богаче первой и, что важно, имеет тесты не только на отказ от плохого поведения, но и на долю ложных отказов от добросовестных запросов на рисковые кибербазопасные темы. Кроме того, уже в самой статье бенчмарк на эксплуатацию уязвимостей рассматривается не как диагностика проблем, а как диагностика способностей – все-таки было бы очень удобно, если бы можно было загрузить сервер с GPU фаззировать по-умному свои приложения с утра до вечера, это бы потенциально повысило защищенность ПО. Важным выводом с точки зрения защищенности является то, что prompt injection – нерешенная задача, поэтому надеяться на то, что модель не будет забивать на system prompt пока рановато. Занятно, что буквально пару недель назад вышла статья ребят из OpenAI (включая небезызвестного Эрика Уоллеса), где они демонстрируют, что резко снизить вероятность prompt injection вполне можно на уровне элайнмента – и об этом мы тоже обязательно почитаем.

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/147

Open in Telegram

Telegram News

Date: 2025-07-27|

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. SUCK Channel Telegram The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us

Telegram llm security и каланы
FROM American