llm security и каланы@llmsecurity P.166

llm security и каланы

В качестве модели для обучения используется GPT-3.5, которую тюнят с помощью SFT и RLHF. Оценивают результаты как на своих датасетах, так и на внешних, например на датасете Gandalf от Lakera[.]AI. На всех датасетах модель демонстрирует повышение устойчивости к атакам, в том числе для джейлбрейков. При этом оценивают и деградацию – не начинает ли модель вести себя слишком осторожно. Исследователи отмечают небольшую деградацию на специально подобранных adversarial-датасетах, но утверждают, что это должно быть практически незаметным в реальных сценариях.

www.tgoop.com/llmsecurity/163

141 viewsJun 20, 2024 at 15:11

tgoop.com/llmsecurity/166

Create: 2024-06-20
Last Update: 2025-07-06 09:43:40

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/166

Telegram News

В качестве модели для обучения используется GPT-3.5