tgoop.com/startup_custdev/91
Last Update:
AI safety
Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.
Верхнеуровнево, они определяют 4 уровня угрозы модели:
ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат
ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек
ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек
ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ
Критерии угрозы:
1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований
Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.
Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:
Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.
Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.
Интервью, кстати, советую.
AI safety Antrhopic
BY Идеальный стартап

Share with your friend now:
tgoop.com/startup_custdev/91