DEVSECOPS_WEEKLY Telegram 1257
Может ли LLM генерировать безопасный код?

Всем привет!

Этот вопрос можно часто встретить на просторах сети. Многие считают, что «нет» и за LLM надо следить и направлять в нужное русло.

Но что делать, когда хочется некоторой статистики, примеров, аналитики? В этом случае рекомендуем обратить внимание на BaxBench!

Benchmark, в котором авторы исследуют рассматриваемый вопрос. Авторы выбрали 392 задачи, которые описывают 28 сценариев с использованием 14 популярных фреймворков на 6 языках программирования. Далее они «попросили» LLM выполнить эти «задания» и проанализировали результаты.

Получилось следующее:
🍭 62% решений были либо некорректны, либо содержали уязвимости
🍭 Примерно 50% корректных решений не были безопасны
🍭 Получить «работающий и безопасный» вариант оказалось не так просто и требовало дополнительных усилий

Результаты от ChatGPT, DeepSeek, Qwen, Grok и не только представлены на сайте.

Для самостоятельного повтора эксперимента можно воспользоваться наработками из repo.

И, что самое приятное, Авторы выложили dataset, который использовался при тестировании, чтобы вы могли попробовать его на своих моделях.

А что вы думаете по этому поводу? Насколько LLM хороши в написании безопасного кода исходя из вашего опыта?
2



tgoop.com/devsecops_weekly/1257
Create:
Last Update:

Может ли LLM генерировать безопасный код?

Всем привет!

Этот вопрос можно часто встретить на просторах сети. Многие считают, что «нет» и за LLM надо следить и направлять в нужное русло.

Но что делать, когда хочется некоторой статистики, примеров, аналитики? В этом случае рекомендуем обратить внимание на BaxBench!

Benchmark, в котором авторы исследуют рассматриваемый вопрос. Авторы выбрали 392 задачи, которые описывают 28 сценариев с использованием 14 популярных фреймворков на 6 языках программирования. Далее они «попросили» LLM выполнить эти «задания» и проанализировали результаты.

Получилось следующее:
🍭 62% решений были либо некорректны, либо содержали уязвимости
🍭 Примерно 50% корректных решений не были безопасны
🍭 Получить «работающий и безопасный» вариант оказалось не так просто и требовало дополнительных усилий

Результаты от ChatGPT, DeepSeek, Qwen, Grok и не только представлены на сайте.

Для самостоятельного повтора эксперимента можно воспользоваться наработками из repo.

И, что самое приятное, Авторы выложили dataset, который использовался при тестировании, чтобы вы могли попробовать его на своих моделях.

А что вы думаете по этому поводу? Насколько LLM хороши в написании безопасного кода исходя из вашего опыта?

BY DevSecOps Talks




Share with your friend now:
tgoop.com/devsecops_weekly/1257

View MORE
Open in Telegram


Telegram News

Date: |

Each account can create up to 10 public channels How to build a private or public channel on Telegram? Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram.
from us


Telegram DevSecOps Talks
FROM American