tgoop.com/jdata_blog/436
Last Update:
Внимание. С картинками.
До того, как стала популярна механистическая интерпретируемость, в трансформерах много надежды возлагалось на Attention. Кажется, что сейчас интерес к голому исследованию Attention спал, но всё же это чертовски красивый механизм.
Один из примеров визуализации красоты — наткнулась сегодня — визуализация Attention Flows. И вот, в статье, авторы попробовали понять механизм fine-tuning на основе сравнения Attention для претрейненной и нет модели.
Что сделали:
1. Рассмотрели граф внимания, рассмотрев как отправной [CLS] токен (на последнем слое);
2. Для каждой головы внимания выбрали токены, на которые [CLS] смотрит с весом выше порога (τ).
3. Этим токенам присвоили значения узлов на предыдущем слое, а ребра (связь слоя l-1, со слоем l) — обозначили за силу их влияния.
4. Повторили процесс для каждого выбранного токена, двигаясь слой за слоем назад, пока не будут пройдены все слои.
Почему [CLS] — в BERT финальное эмбеддинг-представление используется для классификации (через линейный слой). И всё, что модель «собирает» из текста, в итоге агрегируется в [CLS]. Поэтому, чтобы понять, какие слова повлияли на решение, начали анализ именно с этого токена.
Если алгоритм вас не впечатлил — просто посмотрите на картинку. Получилось безумно красиво.
Чего достигли на основе построения таких картинок:
Решили 3 задачи. Вернее, попробовали решить.
* T1 – Trace and query self-attention: выбор токенов или голов внимания и просмотр, как внимание распространяется по слоям вперёд и назад.
* T2 – Discover attention functionality: понимание того, какие головы и слова наиболее важны для решения задачи — как в сумме, так и по отдельности.
* T3 – Compare models: сравнение внимания в исходной и дообученной модели, поиск уникальных и общих голов внимания и различий в слоях.
Модели между собой посранивали интересно. Инсайты можно найти в статье. И очень ведь красивый инструмент — сравнивать модели на основе вот этих визуальных карт. Красивый, но чертовски непродуктивный — можно упустить детали, если анализировать своими глазами.
Но картинки — просто чудо.
BY Data Blog
Share with your friend now:
tgoop.com/jdata_blog/436