Data Blog@jdata_blog P.441

Data Blog

TDHook

Несмотря на какое-то ощущение, что я в полном hurry (не в плохом, а в скорее хорошем) в последнее время, не забываю почитывать статейки. И одна из интересных тем, за которыми мне интересно следить — это автоматизация interpretability процессов.

Библиотек, которые это делают хорошо, не так много, так что я собираю новые и надеюсь на их качество также, как коллекционирую зажигалки — знаю, что работает, нравится, когда-то пригодится.

Так вот, свежее:
TDHook — open-source фреймворк для интерпретации глубоких нейронных сетей, построенный на PyTorch и TensorDict. Разработан специально для работы с моделями с множественными входами/выходами (мультимодальные системы, DRL, image captioning и др.).

Авторы заявляют, что фреймворк удовлетворяет критериям:

1. Универсальности
* Работает с любой PyTorch моделью
* Нативная поддержка TensorDict структур
* Минимум зависимостей (~50% меньше места, чем transformer_lens), а значит меньше связанных рук в проекте

2. Разнообразия
25+ готовых методов среди которых:
* Attribution: градиенты, Integrated Gradients, LRP, Grad-CAM
* Latent manipulation: линейные пробы, CAV, активационный патчинг
* Weights-based: ROME, sparse autoencoders, task vectors

3. Гибкий API:
* Get-Set API для интервенций (как в nnsight)
* Композиция сложных пайплайнов
* Context managers для управления хуками

Бенчмаркинг у библиотеки приятный — в сравнении с самой популярной библиотекой captum — вычисления градиетных методов до 2x быстрее на Integrated Gradients, и размер библиотеки сильно ниже (всего +6% памяти к базовому torch, тогда как transformer_lens (трансформеры с хуками) дает +104%, а pyvene (библиотека для каузального анализа нейронных сетей через интервенции (вмешательства в промежуточные представления модели)) +132%.

Use Cases обещаны тоже широкие:
— Multi-modal модели и RL агенты
— Концептуальная атрибуция
— Attribution patching для Transformers

Правда, библиотека совсем свежая — последний коммит был 5 дней назад, будет многое ломаться. Но как проект — выглядит перспективно.

GitHub: https://github.com/Xmaster6y/tdhook
Статья: arXiv:2509.25475

GitHub

GitHub - Xmaster6y/tdhook: 🤖🪝Interpretability with tensordict and torch hooks.

🤖🪝Interpretability with tensordict and torch hooks. - Xmaster6y/tdhook

🔥7❤4❤‍🔥2

www.tgoop.com/jdata_blog/441

265 viewsedited Oct 9 at 18:55