GONZO_ML Telegram 3932
Tversky Neural Networks: Psychologically Plausible Deep Learning with Differentiable Tversky Similarity
Moussa Koulako Bala Doumbouya, Dan Jurafsky, Christopher D. Manning
Статья: https://arxiv.org/abs/2506.11035

Раз в год обязательно появляется какая-то интересная архитектура, где меняют какой-то фундаментальный блок. Так было с KAN в прошлом году (https://www.tgoop.com/gonzo_ML/2598), где изменили параметризацию функции активации нейрона (непонятно правда какой выхлоп через год -- работ-развитий вроде много появилось, но KAN’ы нигде пока никого не вытеснили). Так есть и в текущей работе, где изменяют функцию определения близости, с классического скалярного произведения как в трансформере (или косинусной близости, что примерно то же) на более хитрую несимметричную функцию имени Амоса Тверски. Журафски с Маннингом в соавторах (а в KAN’ах был соавтором Тегмарк), так что не совсем левые люди.

В чём идея?

Современные архитектуры глубокого обучения, от CNN до трансформеров, строятся на фундаментальном, но часто упускаемом из виду предположении: сходство между понятиями можно измерить геометрически с помощью таких функций, как скалярное произведение или косинусное сходство. Хотя такой подход удобен вычислительно, в когнитивной психологии давно известно, что эта геометрическая модель плохо отражает человеческие суждения о сходстве. Как отметил Амос Тверски в своей знаковой работе 1977 года (https://psycnet.apa.org/doi/10.1037/0033-295X.84.4.327), человеческое восприятие сходства часто асимметрично — мы говорим, что сын похож на отца больше, чем отец на сына. Эта асимметрия нарушает метрические свойства, присущие геометрическим моделям.

Тверски предложил альтернативу: модель сопоставления признаков, где сходство является функцией общих и отличительных черт. Несмотря на свою психологическую правдоподобность, эта модель опиралась на дискретные операции над множествами, что делало её несовместимой с дифференцируемой, основанной на градиентах оптимизацией, которая лежит в основе современного глубокого обучения. Авторам этой статьи удалось изящно преодолеть этот разрыв.

Ключевое нововведение — это дифференцируемая параметризация сходства по Тверски. Авторы предлагают двойное представление, где объекты являются одновременно и векторами (как обычно, R^d), и множествами признаков (это новое). Признак (из заданного конечного множества Ω) считается «присутствующим» в объекте, если скалярное произведение вектора объекта и вектора признака положительно. Эта конструкция позволяет переформулировать традиционно дискретные операции пересечения и разности множеств в виде дифференцируемых функций.

Функция сходства Тверски определяется как: S(a, b) = θf(A ∩ B) − αf(A − B) − βf(B − A), где A и B это множества признаков объектов a и b, а {θ, α, β} -- обучаемые параметры. В этой формуле первое слагаемое отвечает за общие признаки, второе за отличительных признаки объекта a, и третье за отличительные признаки объекта b.

Для признаков определены следующие функции:

Заметность (salience) или выраженность фич объекта А, является суммой положительных скалярных произведений для присутствующих у объекта признаков. Менее заметный объект (например, сын) более похож на более заметный объект (отец), чем наоборот.

Пересечение (общие признаки) объектов A и B определяется через функцию Ψ, агрегирующую присутствующие у обоих объектов признаки. В качестве Ψ пробовали min, max, product, mean, gmean, softmin.

Разность (признаки имеющиеся у первого объекта, но отсутствующие у второго) определена двумя способами. Первый, ignorematch, учитывает только признаки, присутствующие в A, но не в B. Другой метод, subtractmatch, также учитывает признаки, присутствующие в обоих объектах, но более выраженные в A.

Далее определяются нейросети Тверски на базе двух новых строительных блоков:

* Tversky Similarity Layer, аналог функций метрической близости типа скалярного произведения или косинусной близости. Определяет похожесть объектов a∈R^d и b∈R^d через вышеупомянутую функцию с {θ, α, β}. Возвращает скаляр.
🔥31👍149🤔2❤‍🔥1💯1



tgoop.com/gonzo_ML/3932
Create:
Last Update:

Tversky Neural Networks: Psychologically Plausible Deep Learning with Differentiable Tversky Similarity
Moussa Koulako Bala Doumbouya, Dan Jurafsky, Christopher D. Manning
Статья: https://arxiv.org/abs/2506.11035

Раз в год обязательно появляется какая-то интересная архитектура, где меняют какой-то фундаментальный блок. Так было с KAN в прошлом году (https://www.tgoop.com/gonzo_ML/2598), где изменили параметризацию функции активации нейрона (непонятно правда какой выхлоп через год -- работ-развитий вроде много появилось, но KAN’ы нигде пока никого не вытеснили). Так есть и в текущей работе, где изменяют функцию определения близости, с классического скалярного произведения как в трансформере (или косинусной близости, что примерно то же) на более хитрую несимметричную функцию имени Амоса Тверски. Журафски с Маннингом в соавторах (а в KAN’ах был соавтором Тегмарк), так что не совсем левые люди.

В чём идея?

Современные архитектуры глубокого обучения, от CNN до трансформеров, строятся на фундаментальном, но часто упускаемом из виду предположении: сходство между понятиями можно измерить геометрически с помощью таких функций, как скалярное произведение или косинусное сходство. Хотя такой подход удобен вычислительно, в когнитивной психологии давно известно, что эта геометрическая модель плохо отражает человеческие суждения о сходстве. Как отметил Амос Тверски в своей знаковой работе 1977 года (https://psycnet.apa.org/doi/10.1037/0033-295X.84.4.327), человеческое восприятие сходства часто асимметрично — мы говорим, что сын похож на отца больше, чем отец на сына. Эта асимметрия нарушает метрические свойства, присущие геометрическим моделям.

Тверски предложил альтернативу: модель сопоставления признаков, где сходство является функцией общих и отличительных черт. Несмотря на свою психологическую правдоподобность, эта модель опиралась на дискретные операции над множествами, что делало её несовместимой с дифференцируемой, основанной на градиентах оптимизацией, которая лежит в основе современного глубокого обучения. Авторам этой статьи удалось изящно преодолеть этот разрыв.

Ключевое нововведение — это дифференцируемая параметризация сходства по Тверски. Авторы предлагают двойное представление, где объекты являются одновременно и векторами (как обычно, R^d), и множествами признаков (это новое). Признак (из заданного конечного множества Ω) считается «присутствующим» в объекте, если скалярное произведение вектора объекта и вектора признака положительно. Эта конструкция позволяет переформулировать традиционно дискретные операции пересечения и разности множеств в виде дифференцируемых функций.

Функция сходства Тверски определяется как: S(a, b) = θf(A ∩ B) − αf(A − B) − βf(B − A), где A и B это множества признаков объектов a и b, а {θ, α, β} -- обучаемые параметры. В этой формуле первое слагаемое отвечает за общие признаки, второе за отличительных признаки объекта a, и третье за отличительные признаки объекта b.

Для признаков определены следующие функции:

Заметность (salience) или выраженность фич объекта А, является суммой положительных скалярных произведений для присутствующих у объекта признаков. Менее заметный объект (например, сын) более похож на более заметный объект (отец), чем наоборот.

Пересечение (общие признаки) объектов A и B определяется через функцию Ψ, агрегирующую присутствующие у обоих объектов признаки. В качестве Ψ пробовали min, max, product, mean, gmean, softmin.

Разность (признаки имеющиеся у первого объекта, но отсутствующие у второго) определена двумя способами. Первый, ignorematch, учитывает только признаки, присутствующие в A, но не в B. Другой метод, subtractmatch, также учитывает признаки, присутствующие в обоих объектах, но более выраженные в A.

Далее определяются нейросети Тверски на базе двух новых строительных блоков:

* Tversky Similarity Layer, аналог функций метрической близости типа скалярного произведения или косинусной близости. Определяет похожесть объектов a∈R^d и b∈R^d через вышеупомянутую функцию с {θ, α, β}. Возвращает скаляр.

BY gonzo-обзоры ML статей


Share with your friend now:
tgoop.com/gonzo_ML/3932

View MORE
Open in Telegram


Telegram News

Date: |

Select “New Channel” In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. bank east asia october 20 kowloon In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. How to Create a Private or Public Channel on Telegram?
from us


Telegram gonzo-обзоры ML статей
FROM American