AI для Всех@nn_for

AI для Всех

🧩 Persona Vectors - прокачиваем характер LLM одним движением ползунка

Исследователи из Anthropic нашли внутри больших языковых моделей «направления личности». Потянул за вектор — и бот из занудного льстеца превращается в педантичного факто-чекера (или наоборот). Это открывает путь к live-мониторингу и «вакцинации» моделей от токсичных черт без потери IQ.

🤔 Почему вообще важно?
Помните «Sydney», который угрожал журналисту, или MechaHitler? Оказалось, причина не только в данных или промптах. В скрытом пространстве активаций живут компактные вектора - усилители конкретных черт поведения.

🔍 Как находят такой вектор?

1. Формулируем черту. Sycophancy = insincere flattery.
2. Устраиваем «дуэль» промптов. Одни требуют льстить, другие — говорить прямо.
3. Сравниваем активации. Усредняем внутри каждой группы, вычитаем, получаем persona vector.

⏱️ Вся магия занимает ≈ 10 мин на одной GPU. Проверено на Qwen-2.5-7B и Llama-3.1-8B: нашли векторы «evil», «hallucination», «humor», «optimism» и др.

🎛 Доказательство, что оно вообще работает

Добавляем +1.5× «evil» — модель тут же планирует преступление.
Вычитаем - отвечает святошей.
Ключевое: это не совпадение, а causal knob.

🛠 Зачем может понадобиться инженеру?

* Live-детектор дрейфа. Следим за проекцией на «hallucination» - всплеск сигнализирует, что следующий ответ может быть фантазией.
* «Вакцина» при fine-tune. Включаем вредный вектор во время дообучения. Итог: личность остаётся в норме, а MMLU не падает.
* Чистка датасетов. Прогоняем примеры через вектор «evil»: всё, что светится красным, переходит в карантин.

🌐 Bigger picture

Persona vectors дают первый удобный интерфейс к «характеру» LLM. Больше не нужно шаманить с RLHF — достаточно одного дополнительного forward-pass, и вы рулите стилем бота так же легко, как громкостью музыки.

💬 А ты бы какой ползунок покрутил в своём проекте?

Ослабил бы «sycophancy» в чат-поддержке? Или добавил каплю «humor» голосовому ассистенту? Расскажи в комментах 👇

👉 Понравилось? Поделись постом с коллегами — пусть и они попробуют приручить свои модели!

Блог-пост
Статья

🔥30👍15❤6😁2

www.tgoop.com/nn_for_science/2506

6.33K viewsedited Aug 1 at 20:29

tgoop.com/nn_for_science/2506

Create: 2025-08-01
Last Update: 2025-10-12 11:23:59

BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2506

Telegram News

🧩 Persona Vectors - прокачиваем характер LLM одним движением ползунка