SANTRYBLOG Telegram 756
Обманывать, чтобы защищать

На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.

Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.

Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?

Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.

Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.

В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.
🔥53👍3



tgoop.com/SantryBlog/756
Create:
Last Update:

Обманывать, чтобы защищать

На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.

Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.

Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?

Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.

Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.

В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.

BY Santry's Singularity blog




Share with your friend now:
tgoop.com/SantryBlog/756

View MORE
Open in Telegram


Telegram News

Date: |

Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. The best encrypted messaging apps How to Create a Private or Public Channel on Telegram? Invite up to 200 users from your contacts to join your channel
from us


Telegram Santry's Singularity blog
FROM American