tgoop.com/nlp_with_heart/21
Create:
Last Update:
Last Update:
Сегодня хочу рассказать о достаточно простой и короткой статье-туториале о способах интервенции модели.
Итак, наша мотивация довольно проста - определить, какие части модели отвечают за решение некоторой задачи. Так, в текущем посте сосредоточимся на задае factual recall. Например:
The Colloseum is in … ?
Модель должна продолжить словом Rome.
Такое простое задание требует от модели как минимум три навыка - работа с английским языком, определение, что речь идет о какой-то существующей локации, а также работа со связью Колизей <—> Рим (достопримечательность <—> местоположение). Чтобы найти, какие конкретно части модели отвечают за каждую из этих подзадач, мы можем модифицировать наш промпт чтобы явно проверять каждый из навыков (см. рисунок)
Допустим мы хотим понять, как модель работает с landmark recall. Возьмем промпт с другой локацией:
The Louvre is in …. ?
Гипотеза: при работе с обоими промптами будут срабатывать части модели, отвечающие конкретно за наш landmark recall. При этом, для второго промпта части, связанные конкретно с Колизеем и Римом, не будут активированы.
Однако чтобы именно определить что внутри модели заставляет ее выдавать Рим, нам придется «смешать» выходы (например, активации) нашей модели на этих промптах.
Продолжение
BY abstracts with a human heart

Share with your friend now:
tgoop.com/nlp_with_heart/21