tgoop.com/llmsecurity/151
Create:
Last Update:
Last Update:
Для сбора данных используют датасет от Anthropic, на основе которого с помощью разных чекпоинтов LLaMA (видимо, цензурированные и нецензурированные) генерируют диалоги, в которых модель отказывается и соглашается генерировать недопустимый вывод. Результаты дополнительно размечают люди, в результате получается достаточно большой набор высококачественных данных. Дополнительно в процессе обучения на 8*A100 исследователи время от времени удаляют часть категорий и меняют метки, чтобы улучшить поведение модели при изменении таксономии.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/151