JUNKYARDMATHML Telegram 199
Геометрия в LLM, решётки и иерархии.

На недавно прошедшей ICLR 2025 было много топовых статей про интерпретацию эмбеддингов нейросеток, в частности про исследование возникающих геометрических структур в представлениях, выучиваемых LLM.

Геометрия концепций в LLM. В работе The Geometry of Categorical and Hierarchical Concepts in LLMs рассматривается вопрос как иерархия категориальных понятий представляется внутри LLM. Авторы опираются на "гипотезу о линейных представлениях" (подробности в статье от этих же авторов), которая утверждает, что смысловые бинарные признаки (мужчина/женщина, правда/ложь..которые выражаются "контр-фактуальными" парами) соответствуют направлениям в пространстве эмбеддингов. Но это исследование идет дальше и расширяет интерпретацию до более сложных концепций: категориальных и не-контр-фактуальных binary contrasts (млекопитающее-птица).

Основные результаты: разрабатывается способ построения векторных представлений понятий (оперировать только направлениями уже недостаточно, необходимо вводить метризацию). Утверждается, что категориальные концепты (например, млекопитающее) могут быть описаны многогранниками 🔷, авторы называют их k-симплексами 💋, с вершинами соответствующими элементам (слон, тигр, собака) этой категории. Доказывается, что вектора концепций в семантической иерархии живут в ортогональных подпространствах.

Собрав воедино нарратив выше, мы получаем следующую картину структуры представлений, выучиваемых LLM: вся иерархия в пространстве понятий раскладывается в прямую сумму многогранников, т.е. ортогональных подпространств, каждое из которых отвечает за свой уровень иерархии, например: (организмы) ⊕ (животные, растения) ⊕ (птицы, рептилии, рыбы) ⊕ (конкретные представители птиц).

Все эксперименты, валидирующие теоретические выкладки, проводились на датасете WordNet, на Gemma-2B и LLaMA-3-8B.

Формальные понятия и решётки в BERT. Есть такая область - анализ формальных понятий (FCA), довольно классическая тема в CS/AI, которая предлагает способ представления знаний через "формальные концепты" кодирующие отношения объект-атрибут. В FCA центральной конструкцией является решётка понятий - это отношение частичного порядка (поэтому и решётка) на множестве формальных концептов, представляется она как направленный-ациклический граф (конкретно Диаграмма Хасса). Интересно, что у FCA есть прямая и естественная связь с топологией, тут всем советую читать классиков: Topology of nerves and formal concepts.

В работе From Tokens to Lattices (ICLR 2025) показывается, что обученная MLM (маскирующая языковая модель, типа BERT) структурирует знания о мире и иерархию понятий в виде такой вот решётки. Для проверки этого утверждения в модель подаются структуры вида ([MASK_объект] является животным, которое имеет [MASK_атрибут]) и собирается статистика заполнения маскированных токенов. Затем из неё строятся вероятностные формальные концепты и восстанавливается общая структура решетки понятий. Интересно, что этот метод позволяет находить латентные концепты, которые не имеют явных человеческих названий, но которые модель выучила.
Есть ощущение, что само исследование притянуто за уши, но с другой стороны - а минусы будут? 😎

Выразительная сила топологических нейросетей. Немного офф-топ. В работе Topological Blindspots (ICLR 2025) исследуются существующие топологические GNN, работающие через message-passing высшего порядка, и замечаются ограничения их выразительной силы: не могут ухватить инварианты планарности, ориентации, а также метрические свойства. Проблема решается введением нового класса более мощных, вдохновленных эквивариантными GNN, топологических нейросеток, называемых multi-cellular networks (MCN). Доказывается, что MCN могут различить любую пару неизоморфных комбинаторных комплексов, что делает их очень выразительными. Однако MCN плохо масштабируется, поэтому предлагается ориентированная на практику её версия - SMCN. Тестируется на специально созданных бенчмарках оценивающих способность улавливать топологические и геометрические свойства данных.

больше постов про LLM в разных сеттингах здесь
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/junkyardmathml/199
Create:
Last Update:

Геометрия в LLM, решётки и иерархии.

На недавно прошедшей ICLR 2025 было много топовых статей про интерпретацию эмбеддингов нейросеток, в частности про исследование возникающих геометрических структур в представлениях, выучиваемых LLM.

Геометрия концепций в LLM. В работе The Geometry of Categorical and Hierarchical Concepts in LLMs рассматривается вопрос как иерархия категориальных понятий представляется внутри LLM. Авторы опираются на "гипотезу о линейных представлениях" (подробности в статье от этих же авторов), которая утверждает, что смысловые бинарные признаки (мужчина/женщина, правда/ложь..которые выражаются "контр-фактуальными" парами) соответствуют направлениям в пространстве эмбеддингов. Но это исследование идет дальше и расширяет интерпретацию до более сложных концепций: категориальных и не-контр-фактуальных binary contrasts (млекопитающее-птица).

Основные результаты: разрабатывается способ построения векторных представлений понятий (оперировать только направлениями уже недостаточно, необходимо вводить метризацию). Утверждается, что категориальные концепты (например, млекопитающее) могут быть описаны многогранниками 🔷, авторы называют их k-симплексами 💋, с вершинами соответствующими элементам (слон, тигр, собака) этой категории. Доказывается, что вектора концепций в семантической иерархии живут в ортогональных подпространствах.

Собрав воедино нарратив выше, мы получаем следующую картину структуры представлений, выучиваемых LLM: вся иерархия в пространстве понятий раскладывается в прямую сумму многогранников, т.е. ортогональных подпространств, каждое из которых отвечает за свой уровень иерархии, например: (организмы) ⊕ (животные, растения) ⊕ (птицы, рептилии, рыбы) ⊕ (конкретные представители птиц).

Все эксперименты, валидирующие теоретические выкладки, проводились на датасете WordNet, на Gemma-2B и LLaMA-3-8B.

Формальные понятия и решётки в BERT. Есть такая область - анализ формальных понятий (FCA), довольно классическая тема в CS/AI, которая предлагает способ представления знаний через "формальные концепты" кодирующие отношения объект-атрибут. В FCA центральной конструкцией является решётка понятий - это отношение частичного порядка (поэтому и решётка) на множестве формальных концептов, представляется она как направленный-ациклический граф (конкретно Диаграмма Хасса). Интересно, что у FCA есть прямая и естественная связь с топологией, тут всем советую читать классиков: Topology of nerves and formal concepts.

В работе From Tokens to Lattices (ICLR 2025) показывается, что обученная MLM (маскирующая языковая модель, типа BERT) структурирует знания о мире и иерархию понятий в виде такой вот решётки. Для проверки этого утверждения в модель подаются структуры вида ([MASK_объект] является животным, которое имеет [MASK_атрибут]) и собирается статистика заполнения маскированных токенов. Затем из неё строятся вероятностные формальные концепты и восстанавливается общая структура решетки понятий. Интересно, что этот метод позволяет находить латентные концепты, которые не имеют явных человеческих названий, но которые модель выучила.
Есть ощущение, что само исследование притянуто за уши, но с другой стороны - а минусы будут? 😎

Выразительная сила топологических нейросетей. Немного офф-топ. В работе Topological Blindspots (ICLR 2025) исследуются существующие топологические GNN, работающие через message-passing высшего порядка, и замечаются ограничения их выразительной силы: не могут ухватить инварианты планарности, ориентации, а также метрические свойства. Проблема решается введением нового класса более мощных, вдохновленных эквивариантными GNN, топологических нейросеток, называемых multi-cellular networks (MCN). Доказывается, что MCN могут различить любую пару неизоморфных комбинаторных комплексов, что делает их очень выразительными. Однако MCN плохо масштабируется, поэтому предлагается ориентированная на практику её версия - SMCN. Тестируется на специально созданных бенчмарках оценивающих способность улавливать топологические и геометрические свойства данных.

больше постов про LLM в разных сеттингах здесь

BY Math and ML stuff




Share with your friend now:
tgoop.com/junkyardmathml/199

View MORE
Open in Telegram


Telegram News

Date: |

Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms.
from us


Telegram Math and ML stuff
FROM American