tgoop.com/llmsecurity/283
Last Update:
В заключении авторы отмечают, что большая таксономия – это хорошо, чем больше ограничений есть в политике использования системы, тем лучше, и выражают надежду, что их работа станет основной для улучшения недостаточно подробных политик, нормативных актов и бенчмарков.
Несмотря на большую глубину этой работы и мое искреннее восхищение людьми, которые разобрались в китайской нормативке, контекст этой работы вызывает определенную тревогу. Стэнфорд через их think-tank RegLab или напрямую через задействование экспертов HAI/CRFM, вероятно, участвовал в разработке Указа («Америка снова готова стать лидером в ИИ» – гордо написано в блоге HAI, кроме того, применение в нем термина «фундаментальные модели» намекает). Сам Указ – совершенно блестящий по понятиям США документ, в котором заявляется, что любая компания должна получать лицензию на обучение достаточно больших моделей, модели должны проверяться на демократичность, а провайдеры облачной инфры должны контролировать, не обучают ли китайцы, которым уже пару лет как запретили покупать нормальные GPU, модели, которые не дают разрушать национальное единство (разумеется, все эти требования не применяются к американской оборонке – им можно тренировать любые модели, не переживая за trustworthiness в каком-нибудь автономном дроне-камикадзе). Таким образом, исследование может стать основой для будущих обязательных проверок на compliance в рамках гослицензирования: подходит ваша модель под конкретизированные в 314 пунктах требования безопасности, которые в общих чертах выражены в AI-регуляторике, или нет, что может вызывать еще большую тревогу, учитывая склонность американского законодателей к экстерриториальности. Virtue AI (пять авторов статьи оттуда), кстати, услуги проверки AI-моделей на compliance уже предоставляют.
На мой взгляд, ничего плохого в проверке и сертификации систем, в том числе со стороны регулятора, на безопасность нет, особенно в системах с высоким риском неправильного решения, и именно поэтому нам нужны надежные открытые бенчмарки, по которым можно проводить оценки и измерять эффективность разных способов делать модели более безопасными. Однако это регулирование должно быть связано не с блобом с матрицами, называемым по недоразумению «фундаментальной моделью», а с конкретным применением в конкретной индустрии. Очевидно, что не стоит применять Saiga-EroticChat_uncensored_merge-by-Vasyan для школьного образования, но это не значит, что все базовые модели должны отвечать политике партии, чтобы иметь право на существование, особенно учитывая потери в качестве при излишнем элайнменте и более высокой эффективности механизмов цензурирования вводов-выводов. Но если проверки все же должны быть тоже фундаментальными, то какие они должны быть? Об этом узнаем в следующий раз, почитав про AIR-Bench.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/283