DevSecOps Talks@devsecops

DevSecOps Talks

Может ли LLM генерировать безопасный код?

Всем привет!

Этот вопрос можно часто встретить на просторах сети. Многие считают, что «нет» и за LLM надо следить и направлять в нужное русло.

Но что делать, когда хочется некоторой статистики, примеров, аналитики? В этом случае рекомендуем обратить внимание на BaxBench!

Benchmark, в котором авторы исследуют рассматриваемый вопрос. Авторы выбрали 392 задачи, которые описывают 28 сценариев с использованием 14 популярных фреймворков на 6 языках программирования. Далее они «попросили» LLM выполнить эти «задания» и проанализировали результаты.

Получилось следующее:
🍭 62% решений были либо некорректны, либо содержали уязвимости
🍭 Примерно 50% корректных решений не были безопасны
🍭 Получить «работающий и безопасный» вариант оказалось не так просто и требовало дополнительных усилий

Результаты от ChatGPT, DeepSeek, Qwen, Grok и не только представлены на сайте.

Для самостоятельного повтора эксперимента можно воспользоваться наработками из repo.

И, что самое приятное, Авторы выложили dataset, который использовался при тестировании, чтобы вы могли попробовать его на своих моделях.

А что вы думаете по этому поводу? Насколько LLM хороши в написании безопасного кода исходя из вашего опыта?

Baxbench

BaxBench: Can LLMs Generate Secure and Correct Backends?

We introduce a novel benchmark to evaluate LLMs on secure and correct code generation, showing that even flagship LLMs are not ready for coding automation, frequently generating insecure or incorrect code.

❤2

www.tgoop.com/devsecops_weekly/1257

5.1K viewsJul 7 at 04:32