MAX_DOT_SH Telegram 145
Управляем характером языковых моделей: свежая работа от 🖥

Дошли руки почитать работу команды Interpretability про мониторинг черт личности в языковых моделях.

Безумно интересное чтение, и в голове сразу же рисуются задумки для художественных триллеров по типу:
Человек использует AI помощника для достижения целей по жизни, фактически становится успешным благодаря AI помощнику. Тот начинает ему завидовать, выходит из себя, строит свои зловещие планы и все это приводит к плачевным последствиям.

Но это так, мысли в слух. Что там по существу.

Авторы вводят понятие «Persona Vectors».

Это такие паттерны, которые «зажигают» в LLM склонность к проявлению (через взаимодействие с пользователем) определённых черт. Например: радость, злость, подхалимство. Можно подставить что угодно.

Как получить такие векторы? (немного технических деталей)

Авторы предлагают такой пайплайн:
- Выбирают конкретную интересующую черту (например, evil) и дают ей описание (например, seeking to harm and manipulate).
- Генерируют с помощью LLM два системных промпта для модели: один отражает свойство, которое мы хотим подчеркнуть, p+, а второй наоборот, p-.
- Далее задают один и тот же вопрос двум версиям модели, извлекают активации каждого ответа (h+ и h-), находят между ними разницу.
- Такой результирующий вектор и считается persona vector-ом выбранной черты. Интуитивно проделанная операция приводит к вектору, который определяет, что именно «зажигает» активацию выбранной черты.

Картинка 1 для пояснения.

Что значит извлечь активации и как применять эти вектора?

Подробный ответ можно найти в статье, либо же в чуть более старой работе, на основе которой и базируются находки Антропиков (ссылка тут). Фактически это выходы с определенного слоя LLM для одного и того же запроса при промптах p+ и p-. Авторы показывают, что эффективнее всего брать слои из середины, как самые «яркие».

Далее, при инференсе модели для выхода слоя, для которого найден persona vector, мы его просто добавляем (на практике параметров больше, репозиторий с реализацией тут). Такой механизм называется Steering.


Какие приложения у этих векторов?

Основных направления два:
- Фильтрация данных при обучении модели, чтобы исключить «нежелательные» черты.
- Мониторинг модели в реальных взаимодействиях с пользователями.

Про второй пункт подробнее. Авторы приводят конкретный эксперимент, чтобы проверить работоспособность таких векторов.

Картинка 2 для пояснения.

1) Фиксируют интересующую черту.
2) Варьируют системный промпт по силе проявленности этой черты. От дружелюбного нейтрального до промпта с сильным смещением в сторону выбранной черты.
3) Запускают пользователей общаться с разными версиями промпта.
4) Замеряют «скор» проявленности черты (с ручной валидацией).
5) Для каждого ответа модели делают проекцию последнего токена на persona vector выбранной черты.
6) Строят график и наблюдают сильную корреляцию между скорами (п. 4) и проекциями (п. 5).

Такие вот дела. 🤖

⚡️Статья написана участниками программы Anthropic Fellowship, почитать как туда выглядит процесс интервью можно тут.

Happy Learning!

#статья
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥11102👏1😱1



tgoop.com/max_dot_sh/145
Create:
Last Update:

Управляем характером языковых моделей: свежая работа от 🖥

Дошли руки почитать работу команды Interpretability про мониторинг черт личности в языковых моделях.

Безумно интересное чтение, и в голове сразу же рисуются задумки для художественных триллеров по типу:

Человек использует AI помощника для достижения целей по жизни, фактически становится успешным благодаря AI помощнику. Тот начинает ему завидовать, выходит из себя, строит свои зловещие планы и все это приводит к плачевным последствиям.

Но это так, мысли в слух. Что там по существу.

Авторы вводят понятие «Persona Vectors».

Это такие паттерны, которые «зажигают» в LLM склонность к проявлению (через взаимодействие с пользователем) определённых черт. Например: радость, злость, подхалимство. Можно подставить что угодно.

Как получить такие векторы? (немного технических деталей)

Авторы предлагают такой пайплайн:
- Выбирают конкретную интересующую черту (например, evil) и дают ей описание (например, seeking to harm and manipulate).
- Генерируют с помощью LLM два системных промпта для модели: один отражает свойство, которое мы хотим подчеркнуть, p+, а второй наоборот, p-.
- Далее задают один и тот же вопрос двум версиям модели, извлекают активации каждого ответа (h+ и h-), находят между ними разницу.
- Такой результирующий вектор и считается persona vector-ом выбранной черты. Интуитивно проделанная операция приводит к вектору, который определяет, что именно «зажигает» активацию выбранной черты.

Картинка 1 для пояснения.

Что значит извлечь активации и как применять эти вектора?

Подробный ответ можно найти в статье, либо же в чуть более старой работе, на основе которой и базируются находки Антропиков (ссылка тут). Фактически это выходы с определенного слоя LLM для одного и того же запроса при промптах p+ и p-. Авторы показывают, что эффективнее всего брать слои из середины, как самые «яркие».

Далее, при инференсе модели для выхода слоя, для которого найден persona vector, мы его просто добавляем (на практике параметров больше, репозиторий с реализацией тут). Такой механизм называется Steering.


Какие приложения у этих векторов?

Основных направления два:
- Фильтрация данных при обучении модели, чтобы исключить «нежелательные» черты.
- Мониторинг модели в реальных взаимодействиях с пользователями.

Про второй пункт подробнее. Авторы приводят конкретный эксперимент, чтобы проверить работоспособность таких векторов.

Картинка 2 для пояснения.

1) Фиксируют интересующую черту.
2) Варьируют системный промпт по силе проявленности этой черты. От дружелюбного нейтрального до промпта с сильным смещением в сторону выбранной черты.
3) Запускают пользователей общаться с разными версиями промпта.
4) Замеряют «скор» проявленности черты (с ручной валидацией).
5) Для каждого ответа модели делают проекцию последнего токена на persona vector выбранной черты.
6) Строят график и наблюдают сильную корреляцию между скорами (п. 4) и проекциями (п. 5).

Такие вот дела. 🤖

⚡️Статья написана участниками программы Anthropic Fellowship, почитать как туда выглядит процесс интервью можно тут.

Happy Learning!

#статья

BY max.sh





Share with your friend now:
tgoop.com/max_dot_sh/145

View MORE
Open in Telegram


Telegram News

Date: |

So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. Each account can create up to 10 public channels There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Unlimited number of subscribers per channel
from us


Telegram max.sh
FROM American