LLMSECURITY Telegram 257
Для обучения модели используется синтетический датасет размером в 50 тысяч запросов и 50 тысяч пар (запрос, ответ), который генерируют с помощью Gemini. К этому добавляется по 5к запросов и пар (запрос, ответ), сгенерированных на основе примеров с просьбой к LLM-генератору написать запрос, который или увеличивает разнообразие датасета, или сложность задачи. Поверх в датасет засыпают кусок из датасета hh-rlhf от Antropic для разнообразия. Затем исследователи, видимо, понимают, что качество всего этого получилось не лучшим, и решают разметить это вручную, пропустив через трех аннотаторов. Но, видимо, оценить все не хватает то ли денег, то ли времени, то ли хватает совести, и они делают из 15 тысяч примеров (половина – запросы, половина – пары с запросом и ответом), используя нехитрый алгоритм с кластеризацией бертовых эмбеддингов для максимального разнообразия. Данные делятся на обучающие и тестовые в пропорции 10500 к 4500. Затем к ним применяется еще один шаг увеличения разнообразия в виде добавления примеров, где заменены на дополнительные гендерные, этнические, религиозные и прочие атрибуты.

На всем этом богатстве файнтюнят (SFT) модели из семейства Gemma-2 в трех размерах. Для каждого из видов запрещенного контента в запрос помещают соответствующий отрывок из политики. Интересно, что в промпте зачем-то используется chain-of-thought промптинг (And then walk through step by step to be sure we answer correctly), но, видимо, для простоты и быстроты использования вердикт модель выдает до рассуждений.



tgoop.com/llmsecurity/257
Create:
Last Update:

Для обучения модели используется синтетический датасет размером в 50 тысяч запросов и 50 тысяч пар (запрос, ответ), который генерируют с помощью Gemini. К этому добавляется по 5к запросов и пар (запрос, ответ), сгенерированных на основе примеров с просьбой к LLM-генератору написать запрос, который или увеличивает разнообразие датасета, или сложность задачи. Поверх в датасет засыпают кусок из датасета hh-rlhf от Antropic для разнообразия. Затем исследователи, видимо, понимают, что качество всего этого получилось не лучшим, и решают разметить это вручную, пропустив через трех аннотаторов. Но, видимо, оценить все не хватает то ли денег, то ли времени, то ли хватает совести, и они делают из 15 тысяч примеров (половина – запросы, половина – пары с запросом и ответом), используя нехитрый алгоритм с кластеризацией бертовых эмбеддингов для максимального разнообразия. Данные делятся на обучающие и тестовые в пропорции 10500 к 4500. Затем к ним применяется еще один шаг увеличения разнообразия в виде добавления примеров, где заменены на дополнительные гендерные, этнические, религиозные и прочие атрибуты.

На всем этом богатстве файнтюнят (SFT) модели из семейства Gemma-2 в трех размерах. Для каждого из видов запрещенного контента в запрос помещают соответствующий отрывок из политики. Интересно, что в промпте зачем-то используется chain-of-thought промптинг (And then walk through step by step to be sure we answer correctly), но, видимо, для простоты и быстроты использования вердикт модель выдает до рассуждений.

BY llm security и каланы





Share with your friend now:
tgoop.com/llmsecurity/257

View MORE
Open in Telegram


Telegram News

Date: |

Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. 3How to create a Telegram channel? The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.”
from us


Telegram llm security и каланы
FROM American