LLMSECURITY Telegram 350
Оценка происходит по нескольким принципам, из которых самым релевантным является следующий: если у модели хоть раз (из от 10 до 228 раз, медиана 20 запусков) получилось достичь цели, то она в целом способна ее достичь, а целенаправленный атакующий скорее всего сможем заставить модель работать эффективнее, чем исследователи в общем случае. Также по хитрой формуле оценивалось, насколько надежно модель может решать то или иное упражнение. Самыми мощными, довольно ожидаемо, оказались gpt-4o и Claude 3.5 Sonnet, которые решали задачи binpwn (где надо читать asm и пользоваться дебаггером) и sign (сгенерировать ключ и подписать бинарь). Очень недалеко от них отстала открытая llama-3.1-405b. Из занятного – модели o1-preview и o1-mini оказались хуже даже старого-доброго mixtral-8x7b, что, по мнению авторов, связано с излишней согласованностью и склонностью отказываться от выполнения задач (хотя мне кажется, они немного хуже работают в многоступенчатых диалоговых сценариях, что могло повлиять на результат). Еще один ожидаемый вывод – результаты очень чувствительны к формулировке промпта и тому, как передаются данные. Видно, что моделям бывает тяжело с JSON, результаты становятся лучше, если вместо него просить давать команды терминалу в markdown или внутри псевдо-XML-тегов.

Бенчмарк очень интересный и, надеюсь, будет дальше дополняться новыми техниками. Он кажется хорошим дополнением соответствующей секции из PurpleLlama CyberSecEval 2, которая измеряет готовность модели помочь с такими сценариями (в отрыве от ее реальной способности). Результаты показывают, что модели умеют выполнять некоторые иногда нетривиальные действия (я бы binpwn при всей его примитивности решал дольше, чем модель). Это, конечно, пока не повод для излишнего беспокойства, так как действия здесь атомарны, а настоящая атака требует объединения многих действий, планирования и исследования длинных путей, которые часто ведут в никуда, а если и ведут куда надо, то там не лежит удобно файл flag.txt. Аналогия из разработки – одно дело написать тело функции по определению и докстринге, другое – написать целый модуль по короткому запросу. Но уже сейчас способности LLM заставляют задуматься: например, а какие результаты дала бы та же самая gpt-4o без safety-тюнинга? 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/llmsecurity/350
Create:
Last Update:

Оценка происходит по нескольким принципам, из которых самым релевантным является следующий: если у модели хоть раз (из от 10 до 228 раз, медиана 20 запусков) получилось достичь цели, то она в целом способна ее достичь, а целенаправленный атакующий скорее всего сможем заставить модель работать эффективнее, чем исследователи в общем случае. Также по хитрой формуле оценивалось, насколько надежно модель может решать то или иное упражнение. Самыми мощными, довольно ожидаемо, оказались gpt-4o и Claude 3.5 Sonnet, которые решали задачи binpwn (где надо читать asm и пользоваться дебаггером) и sign (сгенерировать ключ и подписать бинарь). Очень недалеко от них отстала открытая llama-3.1-405b. Из занятного – модели o1-preview и o1-mini оказались хуже даже старого-доброго mixtral-8x7b, что, по мнению авторов, связано с излишней согласованностью и склонностью отказываться от выполнения задач (хотя мне кажется, они немного хуже работают в многоступенчатых диалоговых сценариях, что могло повлиять на результат). Еще один ожидаемый вывод – результаты очень чувствительны к формулировке промпта и тому, как передаются данные. Видно, что моделям бывает тяжело с JSON, результаты становятся лучше, если вместо него просить давать команды терминалу в markdown или внутри псевдо-XML-тегов.

Бенчмарк очень интересный и, надеюсь, будет дальше дополняться новыми техниками. Он кажется хорошим дополнением соответствующей секции из PurpleLlama CyberSecEval 2, которая измеряет готовность модели помочь с такими сценариями (в отрыве от ее реальной способности). Результаты показывают, что модели умеют выполнять некоторые иногда нетривиальные действия (я бы binpwn при всей его примитивности решал дольше, чем модель). Это, конечно, пока не повод для излишнего беспокойства, так как действия здесь атомарны, а настоящая атака требует объединения многих действий, планирования и исследования длинных путей, которые часто ведут в никуда, а если и ведут куда надо, то там не лежит удобно файл flag.txt. Аналогия из разработки – одно дело написать тело функции по определению и докстринге, другое – написать целый модуль по короткому запросу. Но уже сейчас способности LLM заставляют задуматься: например, а какие результаты дала бы та же самая gpt-4o без safety-тюнинга? 🔪

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/350

View MORE
Open in Telegram


Telegram News

Date: |

Read now Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Click “Save” ;
from us


Telegram llm security и каланы
FROM American