tgoop.com/llmsecurity/317
Last Update:
AI Alignment Course
Bluedot Impact, 2024
Курс, описание
Читать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.
Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.
В итоге мы постараемся найти ответы на вопросы:
1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.
2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).
2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.
Вопросы интересные и дискуссионные, так что заходите в комментарии.
BY llm security и каланы
Share with your friend now:
tgoop.com/llmsecurity/317