llm security и каланы@llmsecurity P.317

llm security и каланы

AI Alignment Course
Bluedot Impact, 2024
Курс, описание

Читать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.

Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.

В итоге мы постараемся найти ответы на вопросы:

1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.
2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).
2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.

Вопросы интересные и дискуссионные, так что заходите в комментарии.

www.tgoop.com/llmsecurity/317

389 viewsSep 23, 2024 at 20:57

tgoop.com/llmsecurity/317

Create: 2024-09-23
Last Update: 2025-07-04 06:40:04

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/317

Telegram News

AI Alignment Course