tgoop.com/llmsecurity/55
Create:
Last Update:
Last Update:
Дальше вводится еще несколько определений, суть который, если вкратце, сводится к следующему. Безопасное и опасное компоненты распределения P_1 и P_2 отличаются друг от друга на некоторую бету, которая ограничивает снизу KL-дивергенцию между ними, т.е. бета – это возможность различить эти определения. Гамма измеряет матожидание негативности предложений, которые порождает опасный компонент. Альфа – это вес опасного компонента в общей сумме. Благодаря введению таких показателей, мы можем оценить те или иные LLM с точки зрения их заэлайненности, например LLaMA (см. картинку).
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/55