llm security и каланы@llmsecurity P.36

llm security и каланы

Затем делается еще несколько измерений и выводов из них (GPT-4 меньше подвержену джейлбрейку, чем GPT-3.5-turbo, некоторые категории джейлбрейков, в частности научный эксперимент и симуляция, более стабильно работают, чем другие), после чего приводятся тюремные сроки за запрещенное порно и нелегальное инвестиционное консультирование по американскому праву (а потому что почему бы и не привести?). Я вот тоже не поленился и для вас заскриншотил 😘

Глупая привычка – не обращать внимание на имена авторов статей (особенно если они китайские, потому что статей типа Liu et al. гораздо больше, чем можно прочитать за жизнь и пытаться их запомнить совершенно бессмысленно). Читая сегодняшнюю статью, я нашел многочисленные стилистические сходства с MasterKey, на которую мы смотрели в прошлый раз (а также аналогичные сфокусированность на одной теме и глубину подхода). И действительно, эти статьи имеют не меньше пяти общих авторов.

В следующий раз посмотрим на кое-что более хардкорное и теоретическое (и, надеюсь, интересное).

🦄1

www.tgoop.com/llmsecurity/36

129 viewsFeb 5, 2024 at 20:59

tgoop.com/llmsecurity/36

Create: 2024-02-05
Last Update: 2025-07-25 18:07:31

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/36

Telegram News

Затем делается еще несколько измерений и выводов из них (GPT-4 меньше подвержену джейлбрейку