tgoop.com/soldatov_in_telegram/559
Last Update:
В небольшом иследовании я показал, что в большинстве случаев даже уже пара хантов свидетельствует об атаке, поэтому элементарное правило, что если на эндпоинте почти одновременно сработали два и более разных хантов, то на этой системе происходит подозрительная активность, которая с высокой вероятностью окажется инцидентом.
Во время анализа сработавших хантов меня не покидало ощущение, что подобное исследование можно сделать просто по номенклатуре событий. И вот, в работе A Sysmon Incremental Learning System for Ransomware Analysis and Detection (pdf) ребята провели такое исследование: по номенклатуре событий Sysmon-а обнаруживали ransomware.
На мой взгляд, постановка задачи в работе спорная, так как:
- по событиям EDR распознавать малвару с помощью машинного обучения выглядит перебором: есть масса более дешевых и эффективных способов, с более ранним обнаружением (что в случае с шифровальщиками принципиально)
- современные атаки это не всегда какие-то образцы, поэтому правильнее фокусироваться на обнаружение компьютера, а еще лучше - сети\подсети, где наблюдается совокупность каких-то событий
- читая работу сложилось впечатление, что даже если описанный подход будет работать на практике, обнаружение им шифровальщика будет слишком поздно (пока там соберется критическая масса событий, чтобы ML-классификатор мог положительно распознать), когда ущерб уже будет налицо, а надо бы пораньше
Однако, как я отметил в начале этой заметки, обнаруживание на базе номенклатуры событий выглядит перспективно, но с рядом изменений:
- нужна более широкая номенклатура событий, чем у Sysmon, что в нашем случае выполняется
- по результатам экспериментов, думаю, к статистике срабатывающих событий следует добавить и статистику значимых артефактов (значимых полей событий)
- рассматривать следует события не от образца, а с эндпоинта, а затем обобщить на подсети
- надо учитывать последовательность событий - тут как раз неявно адресуется идея с теми самыми цепочками событий, о которых все много говорят, но мало демонстрируют хорошо работающие практические реализации
Описанные три пункта я планирую исследовать последовательно, так как есть ощущение, что даже первый примитивный анализ разных событий с хоста уже будет результативен для ряда сценариев. Задача здесь будет ставиться как подсветить хосты, которые следует включить в анализ нашего VSL-аналитика в рамка процесса Periodic Retro Hunting (упоминал его здесь)
Кроме того, перспективным видится использование online incremental learning (модель обучается на постоянно поступающих новых данных), как альтернативы постоянному переобучению для снижения влияния дрейфов данных и концепции модели на ее качество.
В заключении отмечу, что здесь, как будто, сразу напрашивается обнаружение по аномалиям - были такие-то события, а стали такие-то - аномалия. Здесь я выборочно смотрел визуализации по телеметрии и получил супер-очевидный ожидаемый результат - фолса на легитимную истралляцию ПО, с которой я не придумал что сделать. Есть в планах вернуться к этому исследованию тоже, но после описанного выше.
#MDR #ml
BY Солдатов в Телеграм

Share with your friend now:
tgoop.com/soldatov_in_telegram/559
