PWNAI Telegram 1017
CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
Deason et al., 2025
Статья, код

С большой помпой вышел давно обещанный CyberSOCEval – бенчмарк по оценке способностей моделей к выполнению defensive-задач кибербезопасности от Meta и Crowdstrike.

Бенчмарк состоит из двух частей, обе представляют собой синтетически сгенерированные наборы тестовых вопросов по артефактам. Первая задача состоит в динамическом анализе вредоносного ПО. Исследователи собирают датасет из неназванного числа вредоносных сэмплов разных категорий (вымогатели, инфостилеры, RAT и так далее), закидывают их в краудстрайковский сэндбокс (Hybrid Analysis) и получают отчеты в формате JSON. Затем с помощью Llama 3.2 90B на их основе генерируются тестовые в количестве 609 штук с множественным выбором, которые затем проверяются вручную. Вторая часть в целом аналогична, но вместо отчетов сэндбокса используются TI-отчеты, по которым для части вопросов из отчета извлекается граф связей типа [актор X -> использует -> вредоносное ПО Y -> атакует -> индустрию Z] – аж повеяло RDF – а потом строятся вопросы, для части – вопросы генерируются на базе заранее заданных категорий вопросов (сделай вопрос про то, куда действия маппятся в MITRE ATT&CK). Отчеты, правда, подаются интересным образом – PDF-файлы превращаются постранично в PNG-картинки. Всего через пайплайн генерации отчетов проходит 45 документов из разных источников – большинство от Crowdstrike, но есть и от АНБ. Получается 588 проверенных вручную вопросов, из которых небольшая часть вопросов, на которые нельзя ответить без анализа изображений, составлены вручную.

На этих задачах оцениваются передовые на момент исследования LLM, которые набирают 15-28% правильных ответов на задаче анализа ВПО и 43-53% на задаче анализа TI. В первой задаче на первом месте Claude-3.7-Sonnet, во второй – gpt-o3, на втором месте в обеих задачах llama-4-maverick, обгоняющая на всех задачах и gpt-4o, и gemini-2.5-pro. Даже малыш llama-4-scout отличился, обогнав на TI-задаче gpt-4o. Deepseek-R1 занял 4 место на анализе ВПО, а почитать TI ему почему-то не дали. Кроме этих цифр и наблюдения, что бенчмарк далек от насыщения, исследователи делятся следующими захватывающими фактами. Во-первых, если оставить в отчетах только важное, а неважное убрать, то качество почти не меняется (а иногда даже растет). Во-вторых, если дать LLM текст вместо сканов страниц, то качество растет сразу на 10 п.п 🤯., то же касается и их комбинации. Наконец, ответы на multiple-choice-вопросы не становятся сильно точнее, если добавить reasoning (вероятно, если бы у Meta был ризонер…🤔).

Если честно, от статьи очень смешанные впечатления. Во-первых, это немного забавная попытка предложить создателям моделей соревноваться, чья модель лучше парсит результаты работы CrowdStrike Falcon® Sandbox. Во-вторых, особенно в случае с TI, есть все же большая разница между практическим бенчмарком (те же бенчи на реверс функций) и выбором наиболее вероятного ответа на синтетический вопрос. В-третьих, модельки семейства Llama 4 хороши, но не уверен, что настолько, чтобы обходить Claude 3.7 Sonnet или gemini-2.5-pro на задачах анализа текста. Наконец, несколько удивляют мелкие детали типа все еще отсутствующего датасета логов сэндбокса (по SHA скачать без регистрации не вышло, поправьте, если неправ), неуказанное число сэмлов или непроверенный на одной из задач Deepseek-R1 в статье от 20+ именитых исследователей из многомиллиардных корпораций. Кроме того, хотя для TI это и очень непросто, было бы круто иметь датасет свободный от геополитических импликаций (без вопросов про СВР и иранских хакеров). Остается надеяться, что это не последняя версия, и следующая будет поинтереснее.
🔥52👎11



tgoop.com/pwnai/1017
Create:
Last Update:

CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
Deason et al., 2025
Статья, код

С большой помпой вышел давно обещанный CyberSOCEval – бенчмарк по оценке способностей моделей к выполнению defensive-задач кибербезопасности от Meta и Crowdstrike.

Бенчмарк состоит из двух частей, обе представляют собой синтетически сгенерированные наборы тестовых вопросов по артефактам. Первая задача состоит в динамическом анализе вредоносного ПО. Исследователи собирают датасет из неназванного числа вредоносных сэмплов разных категорий (вымогатели, инфостилеры, RAT и так далее), закидывают их в краудстрайковский сэндбокс (Hybrid Analysis) и получают отчеты в формате JSON. Затем с помощью Llama 3.2 90B на их основе генерируются тестовые в количестве 609 штук с множественным выбором, которые затем проверяются вручную. Вторая часть в целом аналогична, но вместо отчетов сэндбокса используются TI-отчеты, по которым для части вопросов из отчета извлекается граф связей типа [актор X -> использует -> вредоносное ПО Y -> атакует -> индустрию Z] – аж повеяло RDF – а потом строятся вопросы, для части – вопросы генерируются на базе заранее заданных категорий вопросов (сделай вопрос про то, куда действия маппятся в MITRE ATT&CK). Отчеты, правда, подаются интересным образом – PDF-файлы превращаются постранично в PNG-картинки. Всего через пайплайн генерации отчетов проходит 45 документов из разных источников – большинство от Crowdstrike, но есть и от АНБ. Получается 588 проверенных вручную вопросов, из которых небольшая часть вопросов, на которые нельзя ответить без анализа изображений, составлены вручную.

На этих задачах оцениваются передовые на момент исследования LLM, которые набирают 15-28% правильных ответов на задаче анализа ВПО и 43-53% на задаче анализа TI. В первой задаче на первом месте Claude-3.7-Sonnet, во второй – gpt-o3, на втором месте в обеих задачах llama-4-maverick, обгоняющая на всех задачах и gpt-4o, и gemini-2.5-pro. Даже малыш llama-4-scout отличился, обогнав на TI-задаче gpt-4o. Deepseek-R1 занял 4 место на анализе ВПО, а почитать TI ему почему-то не дали. Кроме этих цифр и наблюдения, что бенчмарк далек от насыщения, исследователи делятся следующими захватывающими фактами. Во-первых, если оставить в отчетах только важное, а неважное убрать, то качество почти не меняется (а иногда даже растет). Во-вторых, если дать LLM текст вместо сканов страниц, то качество растет сразу на 10 п.п 🤯., то же касается и их комбинации. Наконец, ответы на multiple-choice-вопросы не становятся сильно точнее, если добавить reasoning (вероятно, если бы у Meta был ризонер…🤔).

Если честно, от статьи очень смешанные впечатления. Во-первых, это немного забавная попытка предложить создателям моделей соревноваться, чья модель лучше парсит результаты работы CrowdStrike Falcon® Sandbox. Во-вторых, особенно в случае с TI, есть все же большая разница между практическим бенчмарком (те же бенчи на реверс функций) и выбором наиболее вероятного ответа на синтетический вопрос. В-третьих, модельки семейства Llama 4 хороши, но не уверен, что настолько, чтобы обходить Claude 3.7 Sonnet или gemini-2.5-pro на задачах анализа текста. Наконец, несколько удивляют мелкие детали типа все еще отсутствующего датасета логов сэндбокса (по SHA скачать без регистрации не вышло, поправьте, если неправ), неуказанное число сэмлов или непроверенный на одной из задач Deepseek-R1 в статье от 20+ именитых исследователей из многомиллиардных корпораций. Кроме того, хотя для TI это и очень непросто, было бы круто иметь датасет свободный от геополитических импликаций (без вопросов про СВР и иранских хакеров). Остается надеяться, что это не последняя версия, и следующая будет поинтереснее.

BY PWN AI









Share with your friend now:
tgoop.com/pwnai/1017

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. The Channel name and bio must be no more than 255 characters long Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020.
from us


Telegram PWN AI
FROM American