NN_FOR_SCIENCE Telegram 2450
🧠🔍 Anthropic выложили в открытый доступ «рентген» для LLM

Сегодня ребята из Anthropic выложили в open-source свежайший circuit-tracer — библиотеку + веб-интерфейс, которые позволяют буквально «посветить фонариком» внутрь любых открытых LLM и посмотреть, как токены влияют друг на друга.

Что дают?

Attribution graphs — автоматически строят граф «кто-на-кого влияет» (токены → фичи → логиты).
Neuronpedia UI — кликаешь 👉 смотришь цепочки рассуждений, группируешь узлы, подписываешь и делишься ссылкой.
Интервенции — в ноутбуке можно подкрутить найденные фичи и сразу увидеть, как меняется ответ модели.

Зачем это нам?
🔑 Интерпретируемость давно отставала от «качаем ещё 10B параметров». Теперь любой энтузиаст может проверить, какие цепочки выводят модель к финальному слову, найти баги рассуждений и даже чинить их on-the-fly.

Пробуйте, делитесь самыми странными цепочки — интересно, какие «мысленные кроличьи норы» вы откопаете! 🐇👆

Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4732🔥6😐1



tgoop.com/nn_for_science/2450
Create:
Last Update:

🧠🔍 Anthropic выложили в открытый доступ «рентген» для LLM

Сегодня ребята из Anthropic выложили в open-source свежайший circuit-tracer — библиотеку + веб-интерфейс, которые позволяют буквально «посветить фонариком» внутрь любых открытых LLM и посмотреть, как токены влияют друг на друга.

Что дают?

Attribution graphs — автоматически строят граф «кто-на-кого влияет» (токены → фичи → логиты).
Neuronpedia UI — кликаешь 👉 смотришь цепочки рассуждений, группируешь узлы, подписываешь и делишься ссылкой.
Интервенции — в ноутбуке можно подкрутить найденные фичи и сразу увидеть, как меняется ответ модели.

Зачем это нам?
🔑 Интерпретируемость давно отставала от «качаем ещё 10B параметров». Теперь любой энтузиаст может проверить, какие цепочки выводят модель к финальному слову, найти баги рассуждений и даже чинить их on-the-fly.

Пробуйте, делитесь самыми странными цепочки — интересно, какие «мысленные кроличьи норы» вы откопаете! 🐇👆

Ссылка

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2450

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? To view your bio, click the Menu icon and select “View channel info.” Telegram users themselves will be able to flag and report potentially false content. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Telegram channels fall into two types:
from us


Telegram AI для Всех
FROM American