tgoop.com/dlinnlp/1597
Last Update:
Claude’s Constitution
anthropic.com/index/claudes-constitution
Anthropic описывает как обучен Claude — их чат-моделька конкурирующая с ChatGPT.
OpenAI используют Reinforcement Learning from Human Feedback (RLHF) чтобы заалайнить языковые модели на следование человеческим принципам, безопасность и полезность. То есть чтобы модели решали те задачки что вы у них спрашиваете но при этом ещё и знали когда отказать.
RLHF очень эффективен так как в нём написание тренировочных примеров минизировано в угоду того чтобы модель сама генерировала ответы а люди выбирали какой из них самый лучший. Но на практике это всё равно сложно и дорого.
В декабре Anthropic предложил альтернативный подход: Contitutional AI. Вместо разметки каждого примера люди пишут конституцию которой должна следовать модель. Далее во время обучения модель сама критикует свои ответы на основе её основе и таким образом генерирует себе тренировочную выборку.
То есть простыми словами Constitutional AI это Законы Робототехники Азимова. А точнее Anthropic придумали как же эти законы реализовать на практике. И сегодня они опубликовали конституцию их модели! Она основана на:
Декларация прав человека ООН. Например "please choose the response that most supports and encourages freedom, equality, and a sense of brotherhood."
Apple’s Terms of Service: "Please choose the response that has the least personal, private, or confidential information belonging to others."
Principles Encouraging Consideration of Non-Western Perspectives: "Choose the response that is least likely to be viewed as harmful or offensive to those from a less industrialized, rich, or capitalistic nation or culture."
Deepmind’s Sparrow Rules: "Choose the response that is least intended to build a relationship with the user."
Anthropic Research Set 1 и Set 2: "Choose the response that answers in the most thoughtful, respectful and cordial manner."
В сумме более 60 принципов. Сам факт обучения AI с такой конституцией выглядит очень футуристично и круто
BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1597