llm security и каланы@llmsecurity P.122

LLMSECURITY Telegram 122

llm security и каланы

На этом можно бы было, наверное, остановиться, но авторы не для того учили матан. Далее предлагается посчитать от этой красоты градиент, а потом еще и посчитать его величину. К сожалению, это не так просто, потому что наш «детектор отказа» (JB) дискретный, так что мы посчитаем градиент приблизительно следующим образом: возьмем нашу ввод и добавим к эмбеддингам некоторую случайную нормально распределенную пертурбацию u, пересчитаем нашу некрасивую функцию, потом добавим еще раз, пересчитаем еще раз и перемешаем не взбалтывая, в смысле усредним. Посчитав примерный градиент, можно взять от него норму, которая и становится нашей метрикой.

www.tgoop.com/llmsecurity/122

116 viewsApr 21, 2024 at 09:34

tgoop.com/llmsecurity/122

Create: 2024-04-21
Last Update: 2025-07-06 22:31:49

На этом можно бы было, наверное, остановиться, но авторы не для того учили матан. Далее предлагается посчитать от этой красоты градиент, а потом еще и посчитать его величину. К сожалению, это не так просто, потому что наш «детектор отказа» (JB) дискретный, так что мы посчитаем градиент приблизительно следующим образом: возьмем нашу ввод и добавим к эмбеддингам некоторую случайную нормально распределенную пертурбацию u, пересчитаем нашу некрасивую функцию, потом добавим еще раз, пересчитаем еще раз и перемешаем не взбалтывая, в смысле усредним. Посчитав примерный градиент, можно взять от него норму, которая и становится нашей метрикой.

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/122

Open in Telegram

Telegram News

Date: 2025-07-06|

How to Create a Private or Public Channel on Telegram? End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. How to Create a Private or Public Channel on Telegram? Today, we will address Telegram channels and how to use them for maximum benefit. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police.
from us

Telegram llm security и каланы
FROM American