LLMSECURITY Telegram 317
AI Alignment Course
Bluedot Impact, 2024
Курс, описание

Читать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.

Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.

В итоге мы постараемся найти ответы на вопросы:

1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.
2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).
2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.

Вопросы интересные и дискуссионные, так что заходите в комментарии.



tgoop.com/llmsecurity/317
Create:
Last Update:

AI Alignment Course
Bluedot Impact, 2024
Курс, описание

Читать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.

Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.

В итоге мы постараемся найти ответы на вопросы:

1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.
2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).
2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.

Вопросы интересные и дискуссионные, так что заходите в комментарии.

BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/317

View MORE
Open in Telegram


Telegram News

Date: |

A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday.
from us


Telegram llm security и каланы
FROM American