tgoop.com/junkyardmathml/199
Last Update:
Геометрия в LLM, решётки и иерархии.
На недавно прошедшей ICLR 2025 было много топовых статей про интерпретацию эмбеддингов нейросеток, в частности про исследование возникающих геометрических структур в представлениях, выучиваемых LLM.
Геометрия концепций в LLM. В работе The Geometry of Categorical and Hierarchical Concepts in LLMs рассматривается вопрос как иерархия категориальных понятий представляется внутри LLM. Авторы опираются на "гипотезу о линейных представлениях" (подробности в статье от этих же авторов), которая утверждает, что смысловые бинарные признаки (мужчина/женщина, правда/ложь..которые выражаются "контр-фактуальными" парами) соответствуют направлениям в пространстве эмбеддингов. Но это исследование идет дальше и расширяет интерпретацию до более сложных концепций: категориальных и не-контр-фактуальных binary contrasts (млекопитающее-птица).
Основные результаты: разрабатывается способ построения векторных представлений понятий (оперировать только направлениями уже недостаточно, необходимо вводить метризацию). Утверждается, что категориальные концепты (например, млекопитающее) могут быть описаны многогранниками
Собрав воедино нарратив выше, мы получаем следующую картину структуры представлений, выучиваемых LLM: вся иерархия в пространстве понятий раскладывается в прямую сумму многогранников, т.е. ортогональных подпространств, каждое из которых отвечает за свой уровень иерархии, например: (организмы) ⊕ (животные, растения) ⊕ (птицы, рептилии, рыбы) ⊕ (конкретные представители птиц).
Все эксперименты, валидирующие теоретические выкладки, проводились на датасете WordNet, на Gemma-2B и LLaMA-3-8B.
Формальные понятия и решётки в BERT. Есть такая область - анализ формальных понятий (FCA), довольно классическая тема в CS/AI, которая предлагает способ представления знаний через "формальные концепты" кодирующие отношения объект-атрибут. В FCA центральной конструкцией является решётка понятий - это отношение частичного порядка (поэтому и решётка) на множестве формальных концептов, представляется она как направленный-ациклический граф (конкретно Диаграмма Хасса). Интересно, что у FCA есть прямая и естественная связь с топологией, тут всем советую читать классиков: Topology of nerves and formal concepts.
В работе From Tokens to Lattices (ICLR 2025) показывается, что обученная MLM (маскирующая языковая модель, типа BERT) структурирует знания о мире и иерархию понятий в виде такой вот решётки. Для проверки этого утверждения в модель подаются структуры вида ([MASK_объект] является животным, которое имеет [MASK_атрибут]) и собирается статистика заполнения маскированных токенов. Затем из неё строятся вероятностные формальные концепты и восстанавливается общая структура решетки понятий. Интересно, что этот метод позволяет находить латентные концепты, которые не имеют явных человеческих названий, но которые модель выучила.
Есть ощущение, что само исследование притянуто за уши, но с другой стороны - а минусы будут?
Выразительная сила топологических нейросетей. Немного офф-топ. В работе Topological Blindspots (ICLR 2025) исследуются существующие топологические GNN, работающие через message-passing высшего порядка, и замечаются ограничения их выразительной силы: не могут ухватить инварианты планарности, ориентации, а также метрические свойства. Проблема решается введением нового класса более мощных, вдохновленных эквивариантными GNN, топологических нейросеток, называемых multi-cellular networks (MCN). Доказывается, что MCN могут различить любую пару неизоморфных комбинаторных комплексов, что делает их очень выразительными. Однако MCN плохо масштабируется, поэтому предлагается ориентированная на практику её версия - SMCN. Тестируется на специально созданных бенчмарках оценивающих способность улавливать топологические и геометрические свойства данных.
больше постов про LLM в разных сеттингах здесь