tgoop.com/llmsecurity/182
Create:
Last Update:
Last Update:
Получается, что таким образом можно аккуратно вырезать элайнмент из любой модели быстро, эффективно и с минимальной потерей качества. Этим, например, занимается Илья Гусев в своих версиях Saiga с пометкой abliterated.
Если хочется еще один разбор с картинками и кодом, то его можно найти вот в этом посте на Huggingface. Метод действительно остроумный и интересный, и есть надежда, что чем эффективнее методы джейлбрейкинга (или даже скорее отмены элайнмента) будут становиться, тем меньше исследователи будут мучать модели, ограничивая их возможности.
BY llm security и каланы
Share with your friend now:
tgoop.com/llmsecurity/182