Data Blog@jdata_blog P.450

Data Blog

Ещё больше ссылок про трансформеры.

Привет, друзья! Наверное, уже мало кого можно удивить визуализациями attention flow и тем, как работает трансформер. Но, каждый раз находя новые, я всё ещё ловлю детский восторг.

Недавно нашла широкую и аккуратную визуализацию circuits в модели GPT-2, где видно, как признаки из разреженного базиса формируют цепочки.

Напомню, что circuits — это цепочки внутренних активаций признаков. Важное слово в определении — цепочки — вот этот токен активировал эту фичу, эта фича — другую, та — грамматический паттерн, и так далее до следующего предсказанного слова.

В терминах, circuits — это ориентированный ациклический граф, чьи вершины — внутренние признаки модели, а рёбра — доказанные причинные зависимости между ними.

Circuits на SAE.

Приложение отсюда демонстрирует circuits, найденные с использованием SAE. Как это построено:

1. Для каждого вектора берем его разреженное представление. Так как представление разреженно — у нас много неактивных признаков;

2. Далее фиксируется пример и для него выбираются активные признаки последнего слоя (пусть L)

3. Далее последовательно для каждого L-i выбираем значимые признаки с прошлого слоя, выключаем их (стаим, например, в 0) и смотрим, поменялись ли активации выше по слою. Если да, то считаем признак участвующим в формировании цепочки, тригерящей признак на слое будущем.

4. После процедуры 3 все найденные связи собираются в граф, который проходит через pruning. И так получается circuit.

В чём продуктивность circuits?

Если посмотреть на приложение может показаться, что circuits — просто что-то классненькое. Но на деле их применяют для дебаггинга, управления (при помощи патчинга) и для понимания моделей с точки зрения теории (в том числе для анализа внутренней геометрии).

Теоретически их можно масштабировать — если какой-то circuit появляется в GPT-2, GPT-2-medium и GPT-J — значит это может быть масштабируемым вычислительным механизмом, встроенным в архитектуру, что даёт больше понимания о моделях, как о сущности, хоть мы и не знаем, почему модели вообще учатся ещё на уровне проблем с лоссом.

Помимо этого материала у меня есть подборки тут, тут и даже конспект лекции о том, как работают трансформеры — тут. Кроме того, существует большой материал от 3Blue1Brown — и, наверное, это золотая отправная точка "входа" в трансфомеры. Так что если вдруг трансформеры входят в ваши планы на Новый год — рекомендую почитать.

peterlai.github.io

Mapping the Inner Workings of Simple LLMs

View interpretable “circuits” extracted from LLMs using the GPT-2 architecture.

❤9

www.tgoop.com/jdata_blog/450

287 viewsDec 10 at 15:46