LLMSECURITY Telegram 243
Дальше исследователи дают себе волю и начинают учить модели, да так, что обои от стен отклеиваются. Запрос и ответ по отдельности прогоняются через некоторую предобученную модель для получения эмбеддингов (multilingual-e5-large-instruct). Затем эти эмбеддинги конкатенируются. Из сконкатенированных пар эмбеддингов для разных запросов и ответов собираются приложения, которые вместе со служебным токеном подаются в легковесную сеточку из нескольких слоев трансформера (без позиционных эмбеддингов, т.к. порядок запросов не важен). Кроме того, исследователи обучают эту же сеть как сиамскую с контрастивной функцией потерь для того, чтобы получать отпечатки ответов сервиса, независимые от известных на данный момент архитектур, и потенциально расширять эту модель на работу с не вошедшими в обучающий набор сетями.

Все это обучается на ответах 40 LLM (из топов HuggingFace Hub по скачиваниям), использованных в разных контекстах: с разными системными промптами, параметрами сэмплирования и даже с использованием RAG и CoT – в итоге в 1000 различных комбинациях. В итоге supervised-модель дает точность в 95% (неплохо для 40 классов). Наибольшие трудности модели доставляют файнтюны Llama, что в целом ожидаемо. Контрастивная модель выдает точность в 90% на LLM, которые она видела, и 81% на неизвестных (посчитано с помощью leave-one-out-метода).



tgoop.com/llmsecurity/243
Create:
Last Update:

Дальше исследователи дают себе волю и начинают учить модели, да так, что обои от стен отклеиваются. Запрос и ответ по отдельности прогоняются через некоторую предобученную модель для получения эмбеддингов (multilingual-e5-large-instruct). Затем эти эмбеддинги конкатенируются. Из сконкатенированных пар эмбеддингов для разных запросов и ответов собираются приложения, которые вместе со служебным токеном подаются в легковесную сеточку из нескольких слоев трансформера (без позиционных эмбеддингов, т.к. порядок запросов не важен). Кроме того, исследователи обучают эту же сеть как сиамскую с контрастивной функцией потерь для того, чтобы получать отпечатки ответов сервиса, независимые от известных на данный момент архитектур, и потенциально расширять эту модель на работу с не вошедшими в обучающий набор сетями.

Все это обучается на ответах 40 LLM (из топов HuggingFace Hub по скачиваниям), использованных в разных контекстах: с разными системными промптами, параметрами сэмплирования и даже с использованием RAG и CoT – в итоге в 1000 различных комбинациях. В итоге supervised-модель дает точность в 95% (неплохо для 40 классов). Наибольшие трудности модели доставляют файнтюны Llama, что в целом ожидаемо. Контрастивная модель выдает точность в 90% на LLM, которые она видела, и 81% на неизвестных (посчитано с помощью leave-one-out-метода).

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/243

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Informative
from us


Telegram llm security и каланы
FROM American