LLMSECURITY Telegram 576
LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.
👍74



tgoop.com/llmsecurity/576
Create:
Last Update:

LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/576

View MORE
Open in Telegram


Telegram News

Date: |

5Telegram Channel avatar size/dimensions Activate up to 20 bots During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020.
from us


Telegram llm security и каланы
FROM American