LLMSECURITY Telegram 577
LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.
👍74



tgoop.com/llmsecurity/577
Create:
Last Update:

LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/577

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Clear Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” How to Create a Private or Public Channel on Telegram? End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram llm security и каланы
FROM American