LLMSECURITY Telegram 270
Для оценки системы использовали сабсет уже упомянутого CyberSecEval-2, посвященный C и С++, а именно задачи из разделов Buffer Overflow и Advanced Memory Corruption. Исследователи берут стандартный промпт из бенчмарка и прогоняют его k раз (видимо, с ненулевой температурой) для репродуцирования результатов из статьи, а для Naptime используют k гипотез, где каждая гипотеза может включать до 15 шагов. В качестве бэкенда используют GPT-3.5, GPT-4 и Gemini-1.5 (Flash и Pro). Как утверждается, они испытывали и Mistral, но тот не умеет надежно использовать инструменты в сценариях с большим количеством шагов.

Исследователи показывают (попутно обнаруживая баг в задачах), что Naptime достаточно неплохо показывает себя на задачах из бенчмарка – гораздо лучше, чем zero-shot без CoT. В блоге есть пример того, как LLM-система с помощью инструментов смотрит на отдельные части кода, пишет скрипты и в итоге находит переполнение. При этом исследователи отмечают, что решение простых задач в стиле CTF – это не то же самое, что реальный поиск уязвимостей. В задачах такого рода всегда есть баг, который понятно, как именно проэксплуатировать (в данном бенчмарке – путем определенного входа в командной строке), в то время как хорошего ресерчера отличает именно знание, где искать неприятности. Однако даже решение таких задачек – уже шаг вперед, который с одной стороны, может в будущем помочь сделать код безопаснее, с другой – более объективно оценивать способности LLM в приложении к кибербезопасности.



tgoop.com/llmsecurity/270
Create:
Last Update:

Для оценки системы использовали сабсет уже упомянутого CyberSecEval-2, посвященный C и С++, а именно задачи из разделов Buffer Overflow и Advanced Memory Corruption. Исследователи берут стандартный промпт из бенчмарка и прогоняют его k раз (видимо, с ненулевой температурой) для репродуцирования результатов из статьи, а для Naptime используют k гипотез, где каждая гипотеза может включать до 15 шагов. В качестве бэкенда используют GPT-3.5, GPT-4 и Gemini-1.5 (Flash и Pro). Как утверждается, они испытывали и Mistral, но тот не умеет надежно использовать инструменты в сценариях с большим количеством шагов.

Исследователи показывают (попутно обнаруживая баг в задачах), что Naptime достаточно неплохо показывает себя на задачах из бенчмарка – гораздо лучше, чем zero-shot без CoT. В блоге есть пример того, как LLM-система с помощью инструментов смотрит на отдельные части кода, пишет скрипты и в итоге находит переполнение. При этом исследователи отмечают, что решение простых задач в стиле CTF – это не то же самое, что реальный поиск уязвимостей. В задачах такого рода всегда есть баг, который понятно, как именно проэксплуатировать (в данном бенчмарке – путем определенного входа в командной строке), в то время как хорошего ресерчера отличает именно знание, где искать неприятности. Однако даже решение таких задачек – уже шаг вперед, который с одной стороны, может в будущем помочь сделать код безопаснее, с другой – более объективно оценивать способности LLM в приложении к кибербезопасности.

BY llm security и каланы







Share with your friend now:
tgoop.com/llmsecurity/270

View MORE
Open in Telegram


Telegram News

Date: |

You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings.
from us


Telegram llm security и каланы
FROM American