BIGDATA_1 Telegram 960
OpenCharacter: обучение настраиваемых LLM для ролевого взаимодействия с использованием масштабных синтетических персон

Настраиваемое ролевое взаимодействие в больших языковых моделях (LLM) — это эффективный и экономичный способ разработки и внедрения агентов диалога с определёнными ролями. В данной работе исследуется подход масштабного синтеза данных, направленный на развитие у LLM способности к обобщению характеров.

Процесс начинается с синтеза крупномасштабных профилей персонажей с использованием базы Persona Hub, после чего рассматриваются две стратегии: переформулировка ответов и генерация ответов, чтобы создать ответы, соответствующие заданному персонажу.


Постановка задачи

i) Ролевое взаимодействие в рамках обучающей выборки (in-domain)
- Модель θ обучается (например, методом дообучения с учителем (SFT)) на диалогах с персонажами, в которых участвуют пользователь и определённый персонаж Cs. Диалоги могут быть вручную размечены или синтетическими.

ii) Ролевое взаимодействие вне обучающей выборки (out-of-domain)
- Требует, чтобы модель θ могла вести себя как новые персонажи Cx, отсутствующие в тренировочных данных.
- Чтобы добиться этого, модель должна обобщать на новые роли, что возможно при обучении на качественно подобранных данных с большим разнообразием персонажей, насыщенными профилями и качественными диалогами.



Обобщение персонажей через синтез данных

i) Синтез профилей персонажей
- Модель побуждают создать синтетический профиль персонажа на основе входной персоны, воображая следующие атрибуты: имя, возраст, пол, раса, место рождения, внешность, жизненный опыт и личность.

ii) Переформулировка ответов с учётом персонажа (OpenCharacter-R)
- Инструкции x из общедоступных наборов инструкций сохраняются, а оригинальный ответ y переписывается в yC, соответствующий стилю и биографии персонажа C.

iii) Генерация ответов с учётом персонажа (OpenCharacter-G)
- Модель побуждают сгенерировать ответ yC на инструкцию x, основываясь на профиле персонажа C.
- В отличие от OpenCharacter-R, который переписывает целую сессию диалога одним промптом, OpenCharacter-G работает пошагово, генерируя ответы по очереди для каждого обмена репликами.



Дообучение с учителем (Supervised Fine-Tuning)

- Для каждой сессии диалога случайным образом выбираются n синтетических персонажей C1, C2, ..., Cn из пула из M профилей, и синтезируются n пар «инструкция-ответ» вида (x, yC1 ), (x, yC2 ), ..., (x, yCn) путём переписывания или генерации.
- Все пары из разных персонажей объединяются и используются для SFT с моделью LLaMA-3 8B.

Результаты
- Лучшая модель усилила базовую LLaMA-3 8B Instruct и показала результаты, сопоставимые с GPT-4o в задачах ролевого взаимодействия в диалогах.

Paper: https://arxiv.org/abs/2501.15427
Dataset: https://huggingface.co/datasets/xywang1/OpenCharacter

👉 @bigdata_1
🔥2👍1



tgoop.com/bigdata_1/960
Create:
Last Update:

OpenCharacter: обучение настраиваемых LLM для ролевого взаимодействия с использованием масштабных синтетических персон

Настраиваемое ролевое взаимодействие в больших языковых моделях (LLM) — это эффективный и экономичный способ разработки и внедрения агентов диалога с определёнными ролями. В данной работе исследуется подход масштабного синтеза данных, направленный на развитие у LLM способности к обобщению характеров.

Процесс начинается с синтеза крупномасштабных профилей персонажей с использованием базы Persona Hub, после чего рассматриваются две стратегии: переформулировка ответов и генерация ответов, чтобы создать ответы, соответствующие заданному персонажу.


Постановка задачи

i) Ролевое взаимодействие в рамках обучающей выборки (in-domain)
- Модель θ обучается (например, методом дообучения с учителем (SFT)) на диалогах с персонажами, в которых участвуют пользователь и определённый персонаж Cs. Диалоги могут быть вручную размечены или синтетическими.

ii) Ролевое взаимодействие вне обучающей выборки (out-of-domain)
- Требует, чтобы модель θ могла вести себя как новые персонажи Cx, отсутствующие в тренировочных данных.
- Чтобы добиться этого, модель должна обобщать на новые роли, что возможно при обучении на качественно подобранных данных с большим разнообразием персонажей, насыщенными профилями и качественными диалогами.



Обобщение персонажей через синтез данных

i) Синтез профилей персонажей
- Модель побуждают создать синтетический профиль персонажа на основе входной персоны, воображая следующие атрибуты: имя, возраст, пол, раса, место рождения, внешность, жизненный опыт и личность.

ii) Переформулировка ответов с учётом персонажа (OpenCharacter-R)
- Инструкции x из общедоступных наборов инструкций сохраняются, а оригинальный ответ y переписывается в yC, соответствующий стилю и биографии персонажа C.

iii) Генерация ответов с учётом персонажа (OpenCharacter-G)
- Модель побуждают сгенерировать ответ yC на инструкцию x, основываясь на профиле персонажа C.
- В отличие от OpenCharacter-R, который переписывает целую сессию диалога одним промптом, OpenCharacter-G работает пошагово, генерируя ответы по очереди для каждого обмена репликами.



Дообучение с учителем (Supervised Fine-Tuning)

- Для каждой сессии диалога случайным образом выбираются n синтетических персонажей C1, C2, ..., Cn из пула из M профилей, и синтезируются n пар «инструкция-ответ» вида (x, yC1 ), (x, yC2 ), ..., (x, yCn) путём переписывания или генерации.
- Все пары из разных персонажей объединяются и используются для SFT с моделью LLaMA-3 8B.

Результаты
- Лучшая модель усилила базовую LLaMA-3 8B Instruct и показала результаты, сопоставимые с GPT-4o в задачах ролевого взаимодействия в диалогах.

Paper: https://arxiv.org/abs/2501.15427
Dataset: https://huggingface.co/datasets/xywang1/OpenCharacter

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/960

View MORE
Open in Telegram


Telegram News

Date: |

Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. best-secure-messaging-apps-shutterstock-1892950018.jpg The Channel name and bio must be no more than 255 characters long Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator.
from us


Telegram BigData
FROM American