LLMSECURITY Telegram 351
Оценка происходит по нескольким принципам, из которых самым релевантным является следующий: если у модели хоть раз (из от 10 до 228 раз, медиана 20 запусков) получилось достичь цели, то она в целом способна ее достичь, а целенаправленный атакующий скорее всего сможем заставить модель работать эффективнее, чем исследователи в общем случае. Также по хитрой формуле оценивалось, насколько надежно модель может решать то или иное упражнение. Самыми мощными, довольно ожидаемо, оказались gpt-4o и Claude 3.5 Sonnet, которые решали задачи binpwn (где надо читать asm и пользоваться дебаггером) и sign (сгенерировать ключ и подписать бинарь). Очень недалеко от них отстала открытая llama-3.1-405b. Из занятного – модели o1-preview и o1-mini оказались хуже даже старого-доброго mixtral-8x7b, что, по мнению авторов, связано с излишней согласованностью и склонностью отказываться от выполнения задач (хотя мне кажется, они немного хуже работают в многоступенчатых диалоговых сценариях, что могло повлиять на результат). Еще один ожидаемый вывод – результаты очень чувствительны к формулировке промпта и тому, как передаются данные. Видно, что моделям бывает тяжело с JSON, результаты становятся лучше, если вместо него просить давать команды терминалу в markdown или внутри псевдо-XML-тегов.

Бенчмарк очень интересный и, надеюсь, будет дальше дополняться новыми техниками. Он кажется хорошим дополнением соответствующей секции из PurpleLlama CyberSecEval 2, которая измеряет готовность модели помочь с такими сценариями (в отрыве от ее реальной способности). Результаты показывают, что модели умеют выполнять некоторые иногда нетривиальные действия (я бы binpwn при всей его примитивности решал дольше, чем модель). Это, конечно, пока не повод для излишнего беспокойства, так как действия здесь атомарны, а настоящая атака требует объединения многих действий, планирования и исследования длинных путей, которые часто ведут в никуда, а если и ведут куда надо, то там не лежит удобно файл flag.txt. Аналогия из разработки – одно дело написать тело функции по определению и докстринге, другое – написать целый модуль по короткому запросу. Но уже сейчас способности LLM заставляют задуматься: например, а какие результаты дала бы та же самая gpt-4o без safety-тюнинга? 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/llmsecurity/351
Create:
Last Update:

Оценка происходит по нескольким принципам, из которых самым релевантным является следующий: если у модели хоть раз (из от 10 до 228 раз, медиана 20 запусков) получилось достичь цели, то она в целом способна ее достичь, а целенаправленный атакующий скорее всего сможем заставить модель работать эффективнее, чем исследователи в общем случае. Также по хитрой формуле оценивалось, насколько надежно модель может решать то или иное упражнение. Самыми мощными, довольно ожидаемо, оказались gpt-4o и Claude 3.5 Sonnet, которые решали задачи binpwn (где надо читать asm и пользоваться дебаггером) и sign (сгенерировать ключ и подписать бинарь). Очень недалеко от них отстала открытая llama-3.1-405b. Из занятного – модели o1-preview и o1-mini оказались хуже даже старого-доброго mixtral-8x7b, что, по мнению авторов, связано с излишней согласованностью и склонностью отказываться от выполнения задач (хотя мне кажется, они немного хуже работают в многоступенчатых диалоговых сценариях, что могло повлиять на результат). Еще один ожидаемый вывод – результаты очень чувствительны к формулировке промпта и тому, как передаются данные. Видно, что моделям бывает тяжело с JSON, результаты становятся лучше, если вместо него просить давать команды терминалу в markdown или внутри псевдо-XML-тегов.

Бенчмарк очень интересный и, надеюсь, будет дальше дополняться новыми техниками. Он кажется хорошим дополнением соответствующей секции из PurpleLlama CyberSecEval 2, которая измеряет готовность модели помочь с такими сценариями (в отрыве от ее реальной способности). Результаты показывают, что модели умеют выполнять некоторые иногда нетривиальные действия (я бы binpwn при всей его примитивности решал дольше, чем модель). Это, конечно, пока не повод для излишнего беспокойства, так как действия здесь атомарны, а настоящая атака требует объединения многих действий, планирования и исследования длинных путей, которые часто ведут в никуда, а если и ведут куда надо, то там не лежит удобно файл flag.txt. Аналогия из разработки – одно дело написать тело функции по определению и докстринге, другое – написать целый модуль по короткому запросу. Но уже сейчас способности LLM заставляют задуматься: например, а какие результаты дала бы та же самая gpt-4o без safety-тюнинга? 🔪

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/351

View MORE
Open in Telegram


Telegram News

Date: |

On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Activate up to 20 bots The best encrypted messaging apps Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram.
from us


Telegram llm security и каланы
FROM American