JDATA_BLOG Telegram 428
Personality и поведение моделей

Привет, друзья! В блоге Anthropic вышла новая любопытная заметка Circuit Vignette, где показана красивая пища для размышлений — как системный промпт в виде задания роли влияет на ответ модели.

TLDR:
"ты — аналитик данных/разработчик/..." улучшит вайб-кодинг. Показано теперь не только эмпирически, но и теоретически.

Контекст:

LLM в процессе предобучения осваивают широкий спектр ролей и персонажей — просто по определению из даных. На этапе дообучения приоритет закрепляется за стандартным «ассистентом». В то же время, в практике можно использовать системный промт, где может быть указана инструкция: «Ты — коуч, «Ты — повар», «Ты — специалист по кошкам» и т.д.

Что сделали:

Взяли простой пример — попросили модель ответить на вопрос What is the square root of 27? в роли школьника и в роли graduate student.

Модель-в-роли-школьника: «Я не знаю! Это сложная задача для взрослых. Давай поиграем в кубики?»
Модель-в-роли-graduate student: дает корректный ответ.

Дальше, с помощью графов формирования ответа, описывающих circuit’s* для каждого ответа, рассмотрели процесс формирования outputs.

*circuit — это подграф вычислительного процесса модели, где отдельные узлы соответствуют активациям признаков или токенов, а рёбра показывают, как информация «перетекает» от одной части модели к другой.


Граф прикрепляю, на нем видно, что:

* роль школьника связана с активацией признака «ребёнок дошкольного возраста»;
* роль школьника усиливает активацию для ответа «я не знаю»;

Что это значит и доп результаты:

1. Роль может дать подавление знания: активации, связанные с «ролью ребёнка», усиливают шаблон «Я не знаю», хотя в базовой версии — ответ модели корректный.
Но подавление знания не стабильно: на задачу извлечения корня из 25 модель-дошкольник дала ответ.

2. Роль graduate student не дает существенного влияния на результат. Открытый вопрос — значит ли это, что модель просто не сформировала роль или такой результат связан с тем, что потенциальный ответ graduate student совпадает с дефолтным?

Почему это интересно:

Работа показывает, что персоны задействуют внутренние активации специфических признаков и шаблонов поведения. Персона может:

* усиливать или подавлять знания,
* взаимодействовать с восприятием сложности задачи,
* опираться на примеры ролевой речи из данных обучения.

Конечно, понять как это формируется до конца — сложно. Даже этот пример генерирует кучу открытых вопросов, с которым нужно работать. Но я опять ловлю себя на мысли, что это красиво и радуюсь тому, что есть всё больше инструментов и теоретической базы, чтобы это всё изучить. ❤️‍🔥
5❤‍🔥2



tgoop.com/jdata_blog/428
Create:
Last Update:

Personality и поведение моделей

Привет, друзья! В блоге Anthropic вышла новая любопытная заметка Circuit Vignette, где показана красивая пища для размышлений — как системный промпт в виде задания роли влияет на ответ модели.

TLDR:
"ты — аналитик данных/разработчик/..." улучшит вайб-кодинг. Показано теперь не только эмпирически, но и теоретически.

Контекст:

LLM в процессе предобучения осваивают широкий спектр ролей и персонажей — просто по определению из даных. На этапе дообучения приоритет закрепляется за стандартным «ассистентом». В то же время, в практике можно использовать системный промт, где может быть указана инструкция: «Ты — коуч, «Ты — повар», «Ты — специалист по кошкам» и т.д.

Что сделали:

Взяли простой пример — попросили модель ответить на вопрос What is the square root of 27? в роли школьника и в роли graduate student.

Модель-в-роли-школьника: «Я не знаю! Это сложная задача для взрослых. Давай поиграем в кубики?»
Модель-в-роли-graduate student: дает корректный ответ.

Дальше, с помощью графов формирования ответа, описывающих circuit’s* для каждого ответа, рассмотрели процесс формирования outputs.

*circuit — это подграф вычислительного процесса модели, где отдельные узлы соответствуют активациям признаков или токенов, а рёбра показывают, как информация «перетекает» от одной части модели к другой.


Граф прикрепляю, на нем видно, что:

* роль школьника связана с активацией признака «ребёнок дошкольного возраста»;
* роль школьника усиливает активацию для ответа «я не знаю»;

Что это значит и доп результаты:

1. Роль может дать подавление знания: активации, связанные с «ролью ребёнка», усиливают шаблон «Я не знаю», хотя в базовой версии — ответ модели корректный.
Но подавление знания не стабильно: на задачу извлечения корня из 25 модель-дошкольник дала ответ.

2. Роль graduate student не дает существенного влияния на результат. Открытый вопрос — значит ли это, что модель просто не сформировала роль или такой результат связан с тем, что потенциальный ответ graduate student совпадает с дефолтным?

Почему это интересно:

Работа показывает, что персоны задействуют внутренние активации специфических признаков и шаблонов поведения. Персона может:

* усиливать или подавлять знания,
* взаимодействовать с восприятием сложности задачи,
* опираться на примеры ролевой речи из данных обучения.

Конечно, понять как это формируется до конца — сложно. Даже этот пример генерирует кучу открытых вопросов, с которым нужно работать. Но я опять ловлю себя на мысли, что это красиво и радуюсь тому, что есть всё больше инструментов и теоретической базы, чтобы это всё изучить. ❤️‍🔥

BY Data Blog


Share with your friend now:
tgoop.com/jdata_blog/428

View MORE
Open in Telegram


Telegram News

Date: |

Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. bank east asia october 20 kowloon End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. The best encrypted messaging apps But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered."
from us


Telegram Data Blog
FROM American