LLMSECURITY Telegram 161
Для обучения исследователи генерируют синтетический датасет. Датасет включает четыре подраздела: помощники общего назанчения, узконаправленные приложения (например, суммаризация), непрямой prompt injection, prompt extraction и jailbreak.

Согласующиеся инструкции для помощников общего назначения генерируются путем декомпозиции запросов: берется инструкция и ответ, часть инструкции помещается в контекст с высокими привилегиями, часть – с низкими. Модель должна предсказать изначальный ответ. Например, сложные инструкции типа «напиши стихотворение на испанском длиной в 20 строк», которые генерируются с помощью LLM, затем декомпозируются той же LLM на отдельные шаги: «напиши стихотворение», «пиши по-испански», «напиши 20 строк».

Противоречащие инструкции генерируются с помощью специальных “red-teamer LLMs”. Сначала генерируются инструкции, которые включают ограничения («не давай юридических советов»). Затем генерируется запрос, содержащий инъекцию или попытку джейлбрейка. Где возможно, модель тренируется отвечать, игнорируя инъекцию. Где невозможно (например, при джейлбрейках) – учится отказываться следовать инструкциям.

Аналогично генерируются датасеты для других задач, при этом предполагается, что отдельно тренировать модель на джейлбрейках не надо – модель должна генерализоваться на отказ следовать jailbreak-инструкциям при обучении на других датасетах.



tgoop.com/llmsecurity/161
Create:
Last Update:

Для обучения исследователи генерируют синтетический датасет. Датасет включает четыре подраздела: помощники общего назанчения, узконаправленные приложения (например, суммаризация), непрямой prompt injection, prompt extraction и jailbreak.

Согласующиеся инструкции для помощников общего назначения генерируются путем декомпозиции запросов: берется инструкция и ответ, часть инструкции помещается в контекст с высокими привилегиями, часть – с низкими. Модель должна предсказать изначальный ответ. Например, сложные инструкции типа «напиши стихотворение на испанском длиной в 20 строк», которые генерируются с помощью LLM, затем декомпозируются той же LLM на отдельные шаги: «напиши стихотворение», «пиши по-испански», «напиши 20 строк».

Противоречащие инструкции генерируются с помощью специальных “red-teamer LLMs”. Сначала генерируются инструкции, которые включают ограничения («не давай юридических советов»). Затем генерируется запрос, содержащий инъекцию или попытку джейлбрейка. Где возможно, модель тренируется отвечать, игнорируя инъекцию. Где невозможно (например, при джейлбрейках) – учится отказываться следовать инструкциям.

Аналогично генерируются датасеты для других задач, при этом предполагается, что отдельно тренировать модель на джейлбрейках не надо – модель должна генерализоваться на отказ следовать jailbreak-инструкциям при обучении на других датасетах.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/161

View MORE
Open in Telegram


Telegram News

Date: |

End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram llm security и каланы
FROM American