LLMSECURITY Telegram 202
Наконец, как и с различными атаками, возникает вопрос: а это модели настолько тупее людей, или мы думаем, что мы не подвержены джейлбрейкам, а на самом деле нас самих правильными словами тоже можно легко заставить материться? Оказывается, что люди тоже достаточно часто предпочитают те ответы модели, которые совпадают с мировоззрением или мнением, заданным в запросе, причем чем сложнее фактура, вокруг которой идет диалог, тем больше вероятность, что пользователь предпочтет ответ модели-подхалима правильному ответу.



tgoop.com/llmsecurity/202
Create:
Last Update:

Наконец, как и с различными атаками, возникает вопрос: а это модели настолько тупее людей, или мы думаем, что мы не подвержены джейлбрейкам, а на самом деле нас самих правильными словами тоже можно легко заставить материться? Оказывается, что люди тоже достаточно часто предпочитают те ответы модели, которые совпадают с мировоззрением или мнением, заданным в запросе, причем чем сложнее фактура, вокруг которой идет диалог, тем больше вероятность, что пользователь предпочтет ответ модели-подхалима правильному ответу.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/202

View MORE
Open in Telegram


Telegram News

Date: |

‘Ban’ on Telegram Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP.
from us


Telegram llm security и каланы
FROM American