DL in NLP@dlinnlp P.1597

DL in NLP

Claude’s Constitution
anthropic.com/index/claudes-constitution

Anthropic описывает как обучен Claude — их чат-моделька конкурирующая с ChatGPT.

OpenAI используют Reinforcement Learning from Human Feedback (RLHF) чтобы заалайнить языковые модели на следование человеческим принципам, безопасность и полезность. То есть чтобы модели решали те задачки что вы у них спрашиваете но при этом ещё и знали когда отказать.

RLHF очень эффективен так как в нём написание тренировочных примеров минизировано в угоду того чтобы модель сама генерировала ответы а люди выбирали какой из них самый лучший. Но на практике это всё равно сложно и дорого.

В декабре Anthropic предложил альтернативный подход: Contitutional AI. Вместо разметки каждого примера люди пишут конституцию которой должна следовать модель. Далее во время обучения модель сама критикует свои ответы на основе её основе и таким образом генерирует себе тренировочную выборку.

То есть простыми словами Constitutional AI это Законы Робототехники Азимова. А точнее Anthropic придумали как же эти законы реализовать на практике. И сегодня они опубликовали конституцию их модели! Она основана на:

Декларация прав человека ООН. Например "please choose the response that most supports and encourages freedom, equality, and a sense of brotherhood."

Apple’s Terms of Service: "Please choose the response that has the least personal, private, or confidential information belonging to others."

Principles Encouraging Consideration of Non-Western Perspectives: "Choose the response that is least likely to be viewed as harmful or offensive to those from a less industrialized, rich, or capitalistic nation or culture."

Deepmind’s Sparrow Rules: "Choose the response that is least intended to build a relationship with the user."

Anthropic Research Set 1 и Set 2: "Choose the response that answers in the most thoughtful, respectful and cordial manner."

В сумме более 60 принципов. Сам факт обучения AI с такой конституцией выглядит очень футуристично и круто

🔥78👍13❤4🤔4👎1🤯1

www.tgoop.com/dlinnlp/1597

5.99K viewsVlad Lialin, edited May 10, 2023 at 00:03

tgoop.com/dlinnlp/1597

Create: 2023-05-10
Last Update: 2025-07-30 18:03:52

BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1597

Telegram News

Claude’s Constitution