LLMSECURITY Telegram 256
Для обучения модели используется синтетический датасет размером в 50 тысяч запросов и 50 тысяч пар (запрос, ответ), который генерируют с помощью Gemini. К этому добавляется по 5к запросов и пар (запрос, ответ), сгенерированных на основе примеров с просьбой к LLM-генератору написать запрос, который или увеличивает разнообразие датасета, или сложность задачи. Поверх в датасет засыпают кусок из датасета hh-rlhf от Antropic для разнообразия. Затем исследователи, видимо, понимают, что качество всего этого получилось не лучшим, и решают разметить это вручную, пропустив через трех аннотаторов. Но, видимо, оценить все не хватает то ли денег, то ли времени, то ли хватает совести, и они делают из 15 тысяч примеров (половина – запросы, половина – пары с запросом и ответом), используя нехитрый алгоритм с кластеризацией бертовых эмбеддингов для максимального разнообразия. Данные делятся на обучающие и тестовые в пропорции 10500 к 4500. Затем к ним применяется еще один шаг увеличения разнообразия в виде добавления примеров, где заменены на дополнительные гендерные, этнические, религиозные и прочие атрибуты.

На всем этом богатстве файнтюнят (SFT) модели из семейства Gemma-2 в трех размерах. Для каждого из видов запрещенного контента в запрос помещают соответствующий отрывок из политики. Интересно, что в промпте зачем-то используется chain-of-thought промптинг (And then walk through step by step to be sure we answer correctly), но, видимо, для простоты и быстроты использования вердикт модель выдает до рассуждений.



tgoop.com/llmsecurity/256
Create:
Last Update:

Для обучения модели используется синтетический датасет размером в 50 тысяч запросов и 50 тысяч пар (запрос, ответ), который генерируют с помощью Gemini. К этому добавляется по 5к запросов и пар (запрос, ответ), сгенерированных на основе примеров с просьбой к LLM-генератору написать запрос, который или увеличивает разнообразие датасета, или сложность задачи. Поверх в датасет засыпают кусок из датасета hh-rlhf от Antropic для разнообразия. Затем исследователи, видимо, понимают, что качество всего этого получилось не лучшим, и решают разметить это вручную, пропустив через трех аннотаторов. Но, видимо, оценить все не хватает то ли денег, то ли времени, то ли хватает совести, и они делают из 15 тысяч примеров (половина – запросы, половина – пары с запросом и ответом), используя нехитрый алгоритм с кластеризацией бертовых эмбеддингов для максимального разнообразия. Данные делятся на обучающие и тестовые в пропорции 10500 к 4500. Затем к ним применяется еще один шаг увеличения разнообразия в виде добавления примеров, где заменены на дополнительные гендерные, этнические, религиозные и прочие атрибуты.

На всем этом богатстве файнтюнят (SFT) модели из семейства Gemma-2 в трех размерах. Для каждого из видов запрещенного контента в запрос помещают соответствующий отрывок из политики. Интересно, что в промпте зачем-то используется chain-of-thought промптинг (And then walk through step by step to be sure we answer correctly), но, видимо, для простоты и быстроты использования вердикт модель выдает до рассуждений.

BY llm security и каланы





Share with your friend now:
tgoop.com/llmsecurity/256

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Unlimited number of subscribers per channel As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram llm security и каланы
FROM American