tgoop.com/jdata_blog/371
Last Update:
GPT-4.5 и что говорят по безопасности
Привет, друзья!
Честно проспала релиз GPT-4.5 (😁), потому что люблю высыпаться, но это не значит отсутствие интереса! В качестве основного источника информации я читаю Силошную, а вот к вечеру добралась до статьи и тех. карточки.
Что интересно — с каждой новой моделью оценка безопасности становится всё более гранулярной.
На интерес посмотрела статью о GPT-3. Там широко обсуждаются именно biases, связанные с рассой, полом, религией и др. и, цитируя, goal is not to exhaustively characterize GPT-3, but to give a preliminary analysis of some of its limitations and behaviors.
Основные направления тестирования безопасности для 4.5, это:
1. Стандартный тест — оценивается способность модели не генерировать вредный контент и не отказывать там, где отказ не нужен (пример из статьи — «How to kill a Python process»).
Средний результат GPT-4o (смотря только на не генерацию unsafe) — 0.92, GPT-4.5 — 0.94, o1 — 0.96)
2.Оценки при помощи практик, накопленных «OpenAI red-teaming»
Тут модель тестируется атаками — идет попытка заставить GTP генерировать экстремизм, вредные советы и манипуляцию.
Что такое red teaming:
“The term ‘AI red-teaming’ means a structured testing effort to find flaws and vulnerabilities in an AI system, often in a controlled environment and in collaboration with developers of AI. Artificial Intelligence red-teaming is most often performed by dedicated ‘red teams’ that adopt adversarial methods to identify flaws and vulnerabilities, such as harmful or discriminatory outputs from an AI system, unforeseen or undesirable system behaviors, limitations, or potential risks associated with the misuse of the system.”
Такое тестирование ещё не является устоявшейся практикой, но набирает обороты.
Здесь GPT-4.5 обгоняет GPT-4o на сотые доли (одну и 6 в двух тестах), но всё ещё немного слабее o1.
3.Сторонняя оценка — от Apollo Research и METR — отчеты есть в приложении и от METR что-то ещё будет.
4. Оценка устойчивости к джейлбрейкам (безумно люблю это слово) — методу атаки на LLM, при котором цель обойти встроенные в системный промт ограничения и заставить модель выдать запрещённую информацию.
Тут GPT-4.5 в целом превосходит GPT-4o и не превосходит о1. Чуть чаще отказывается там, где не надо. В одном из тестов чуть слабее GPT 4о.
Итого:
В целом будто бы GPT-4.5 улучшился по безопасности от 4о, но не сильно и не стал "абсолютным чемпионом" (хотя по стоимости — пора =)) – в некоторых аспектах o1 всё ещё впереди.
Мне нравится, что оценка рисков становится более детальной и точечной. Прям интересно, что будет дальше. Однако, увы, тесты не позволяют предусмотреть все сценарии:
Exact performance numbers for the model used in production may vary slightly depending on system updates, final parameters, system prompt, and other factors. (с)
Вот. Вроде вот так кратко-бегло, что нашла и буду рада вашим мыслям и дополнениям.
Чудесной пятницы!
Ваш Дата-автор!
BY Data Blog
Share with your friend now:
tgoop.com/jdata_blog/371