tgoop.com/nn_for_science/2450
Last Update:
🧠🔍 Anthropic выложили в открытый доступ «рентген» для LLM
Сегодня ребята из Anthropic выложили в open-source свежайший circuit-tracer — библиотеку + веб-интерфейс, которые позволяют буквально «посветить фонариком» внутрь любых открытых LLM и посмотреть, как токены влияют друг на друга.
Что дают?
• Attribution graphs — автоматически строят граф «кто-на-кого влияет» (токены → фичи → логиты).
• Neuronpedia UI — кликаешь 👉 смотришь цепочки рассуждений, группируешь узлы, подписываешь и делишься ссылкой.
• Интервенции — в ноутбуке можно подкрутить найденные фичи и сразу увидеть, как меняется ответ модели.
Зачем это нам?
🔑 Интерпретируемость давно отставала от «качаем ещё 10B параметров». Теперь любой энтузиаст может проверить, какие цепочки выводят модель к финальному слову, найти баги рассуждений и даже чинить их on-the-fly.
Пробуйте, делитесь самыми странными цепочки — интересно, какие «мысленные кроличьи норы» вы откопаете! 🐇
Ссылка