tgoop.com/devsecops_weekly/1287
Last Update:
Использование нейросетей для выявления секретов, опыт Wiz
Всем привет!
Скомпрометированные секреты – один из самых популярных векторов атак. Их ищут везде, в том числе в репозиториях, конфигурационных файлах и образах контейнеров.
Традиционные методы, которые зачастую полагаются на использование регулярных выражений, обладают некоторыми нюансами: много ложных срабатываний (как из-за «общих» правил, так и из-за отсутствия понимания контекста), трудоемкая поддержка (добавлять «регулярки» в случае появления новых секретов, «адаптировать» старые и т.д.).
Нейронные сети показали себя с весьма хорошей стороны в вопросах понимания исходного кода и выявления секретов.
Именно этому и посвящена статья от Wiz, в которой команда описывает свой путь.
«Традиционные» модели (GPT, Claude Sonnet и т.д.) им не подошли по ряду причин:
🍭 Слишком сильное потребление ресурсов (Wiz анализирует миллионы файлов ежедневно)
🍭 Слишком высокая стоимость (обусловленная, опять-таки, большим количеством анализируемой информации)
🍭 Передача конфиденциальной информации (многие пользователи Wiz не хотели, чтобы их данные попадали в вышеуказанные сети)
Поэтому команда решила отойти от парадигмы «bigger is better» и использовать небольшую модель, которую обучили выполнять ровно одну задачу – искать секреты в исходном коде и конфигурационных файлах.
Все этапы: от формирования набора данных (data set) до тестирования и анализа результатов (ожидание/реальность) представлены в статье.
Да-да, в том числе в статье написано какую именно модель выбрали и какие подходы к обучению использовали.
Завершают статью небольшие размышления Автора о том, что будет дальше и как еще можно использовать полученный опыт.
BY DevSecOps Talks

Share with your friend now:
tgoop.com/devsecops_weekly/1287