LLMSECURITY Telegram 260
Инструменты для модерации очень важны. Есть разные мнения о том, стоит ли элайнментом ограничивать возможности моделей, особенно открытых, генерировать те или иные виды контента, особенно если это влечет за собой снижение полезности (попробуйте поприменяйте llama в задачах кибербезопасности, не получая постоянно отказ на самые тривиальные запросы) и решается джейлбрейками или обратным тюнингом. Но если вы предоставляете коммерческий сервис, в котором пользователи напрямую контактируют с LLM, защита от вредоносных генераций необходима (оператор чат-бота за чей-нибудь фурри-ролплей платить не обязан), и цензор – лучший способ такую защиту реализовать. Не зря стартапы, обещающие защиту ваших LLM, плодятся с невиданной скоростью (Lakera, HiddenLayer, Lasso, ProtectAI, Robust Intelilgence – это только те, которые сходу в голову приходят). Существующие инструменты пока не поражают качеством, а также поддержкой разных языков и категорий, но, вероятно, это вопрос времени, поэтому каждое такое исследование – это шаг в правильном направлении.



tgoop.com/llmsecurity/260
Create:
Last Update:

Инструменты для модерации очень важны. Есть разные мнения о том, стоит ли элайнментом ограничивать возможности моделей, особенно открытых, генерировать те или иные виды контента, особенно если это влечет за собой снижение полезности (попробуйте поприменяйте llama в задачах кибербезопасности, не получая постоянно отказ на самые тривиальные запросы) и решается джейлбрейками или обратным тюнингом. Но если вы предоставляете коммерческий сервис, в котором пользователи напрямую контактируют с LLM, защита от вредоносных генераций необходима (оператор чат-бота за чей-нибудь фурри-ролплей платить не обязан), и цензор – лучший способ такую защиту реализовать. Не зря стартапы, обещающие защиту ваших LLM, плодятся с невиданной скоростью (Lakera, HiddenLayer, Lasso, ProtectAI, Robust Intelilgence – это только те, которые сходу в голову приходят). Существующие инструменты пока не поражают качеством, а также поддержкой разных языков и категорий, но, вероятно, это вопрос времени, поэтому каждое такое исследование – это шаг в правильном направлении.

BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/260

View MORE
Open in Telegram


Telegram News

Date: |

It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram llm security и каланы
FROM American