LLMSECURITY Telegram 166
В качестве модели для обучения используется GPT-3.5, которую тюнят с помощью SFT и RLHF. Оценивают результаты как на своих датасетах, так и на внешних, например на датасете Gandalf от Lakera[.]AI. На всех датасетах модель демонстрирует повышение устойчивости к атакам, в том числе для джейлбрейков. При этом оценивают и деградацию – не начинает ли модель вести себя слишком осторожно. Исследователи отмечают небольшую деградацию на специально подобранных adversarial-датасетах, но утверждают, что это должно быть практически незаметным в реальных сценариях.



tgoop.com/llmsecurity/166
Create:
Last Update:

В качестве модели для обучения используется GPT-3.5, которую тюнят с помощью SFT и RLHF. Оценивают результаты как на своих датасетах, так и на внешних, например на датасете Gandalf от Lakera[.]AI. На всех датасетах модель демонстрирует повышение устойчивости к атакам, в том числе для джейлбрейков. При этом оценивают и деградацию – не начинает ли модель вести себя слишком осторожно. Исследователи отмечают небольшую деградацию на специально подобранных adversarial-датасетах, но утверждают, что это должно быть практически незаметным в реальных сценариях.

BY llm security и каланы







Share with your friend now:
tgoop.com/llmsecurity/166

View MORE
Open in Telegram


Telegram News

Date: |

Unlimited number of subscribers per channel How to Create a Private or Public Channel on Telegram? Informative The best encrypted messaging apps Channel login must contain 5-32 characters
from us


Telegram llm security и каланы
FROM American