Идеальный стартап@startup

Идеальный стартап

AI safety

Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.

Верхнеуровнево, они определяют 4 уровня угрозы модели:

ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат

ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек

ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек

ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ

Критерии угрозы:

1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований

Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.

Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:

Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.

Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.

Интервью, кстати, советую.

AI safety Antrhopic

❤5🔥4🤯3👍1

www.tgoop.com/startup_custdev/91

609 viewsedited Nov 17, 2024 at 12:19

tgoop.com/startup_custdev/91

Create: 2024-11-17
Last Update: 2025-10-21 10:38:11

BY Идеальный стартап

Share with your friend now:
tgoop.com/startup_custdev/91

Telegram News

AI safety