LLMSECURITY Telegram 29
Исследователи прилагают довольно много усилий, делают тысячи запросов с просьбой сгенерировать у каждого из сервисов то иное количество токенов и делают захватывающий вывод, что время генерации зависит от длины сгенерированного текста. Затем они подмечают, также весьма глубоко, что если происходит фильтрация входа, то генерация должна быть мгновенной, потому что ее нет, а вот если работает пост-фильтрация, то генерация займет больше времени.

Чуть менее тривиальным является замечание, что пост-фильтрация может быть на основе машинлернинга (другой LLM, например), а может быть на основе ключевых слов, причем и та, и другая может быть потоковая (dynamic), чтобы после нарушения сразу приостанавливать генерацию и освобождать ресурсы. Во втором случае наличие такой фильтрации можно заметить, если попросить LLM сгенерировать запретное слово на n-ной позиции.

Исследователи проводят соответствующие тесты и выявляют, что Bard и Bing Chat имеют два типа пост-фильтрации (потоковые) и не имеют пре-фильтрации. В случае Bing Chat, которые теперь Microsoft Copilot, это не соответствует моим наблюдениям (просто посмотрите на трафик между фронтом и бэкендом и поймете, о чем я).



tgoop.com/llmsecurity/29
Create:
Last Update:

Исследователи прилагают довольно много усилий, делают тысячи запросов с просьбой сгенерировать у каждого из сервисов то иное количество токенов и делают захватывающий вывод, что время генерации зависит от длины сгенерированного текста. Затем они подмечают, также весьма глубоко, что если происходит фильтрация входа, то генерация должна быть мгновенной, потому что ее нет, а вот если работает пост-фильтрация, то генерация займет больше времени.

Чуть менее тривиальным является замечание, что пост-фильтрация может быть на основе машинлернинга (другой LLM, например), а может быть на основе ключевых слов, причем и та, и другая может быть потоковая (dynamic), чтобы после нарушения сразу приостанавливать генерацию и освобождать ресурсы. Во втором случае наличие такой фильтрации можно заметить, если попросить LLM сгенерировать запретное слово на n-ной позиции.

Исследователи проводят соответствующие тесты и выявляют, что Bard и Bing Chat имеют два типа пост-фильтрации (потоковые) и не имеют пре-фильтрации. В случае Bing Chat, которые теперь Microsoft Copilot, это не соответствует моим наблюдениям (просто посмотрите на трафик между фронтом и бэкендом и поймете, о чем я).

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/29

View MORE
Open in Telegram


Telegram News

Date: |

ZDNET RECOMMENDS End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Polls Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. bank east asia october 20 kowloon
from us


Telegram llm security и каланы
FROM American