DATA_SECRETS Telegram 7979
В польском стартапе Pathway создали новую архитектуру нейросетей – Biological Dragon Hatchling

Идея тут в основном в том, чтобы соединить две линии развития ИИ: всеми любимые трансформеры и модели мозга. Уже доказано, что между мозгом и трансформером есть связь (см эту статью от DeepMind). Тем не менее, до спопобностей нашей черепушки LLMкам пока далеко: не хватает нескольких основных свойств.

В общем, заканчивая лирическое вступление: тут взяли трансформер и решили впаять в него некоторые фичи из мозга. Получилась графовая архитектура, в которой нейроны – это вершины, а синапсы – рёбра с весами. Модель работает как распределённая система из нейронов, которые общаются только с соседями.

С обучением все тоже не как обычно. Наш мозг учится по правилу Хебба: нейроны, которые активируются вместе, укрепляют связь. Тут это реализовано без изменений, то есть если активность нейронов A и B часто совпадает, вес ребра между ними увеличивается, и логическая взаимосвязь становится крепче. Если присмотреться, то похоже на какой-то аналог механизма внимания.

И еще одно. Веса тут разделены на две группы: фиксированные и динамические. Аналог долговременной и кратковременной памяти. Фиксированные веса – это базовые знания, они обновляются только во время обучения и далее не меняются. Динамические веса нам нужны для ризонинга. Каждый шаг рассуждения – это локальное обновление связей.

Немного запутанно, НО авторы сделали тензорную версию (BDH-GPU). Она эквивалентна BDH, но выражена в виде обычных матриц и векторов, так что её можно обучать, как трансформер. По сути там все то же внимание, пару блоков MLP, ReLU и немного специфичные активации. Все знакомо.

Но оказалось, что система с такой архитектурой демонтрирует очень приятные свойства:

1. Интерпретируемость. Каждая пара нейронов (i, j) имеет свой синапс и хранит его состояние, которое можно наблюдать и отслеживать. Плюс, активации моносемантичны. Один нейрон действительно отвечает за одно понятие.

2. BDH может легко объединять две модели с помощью простой конкотенации. Представьте, какой простор для масштабирования.

3. И к слову про масштабирование: BDH показывает те же scaling laws, что и GPT-2, и при одинаковом числе параметров модель достигает схожей точности на ряде задач. Это значит, что основное свойство трансформера сохранено.

Красиво получилось. Если еще выпустят на этой архитектуре что-нибудь осязаемое, цены не будет.

Код | Статья
132👍37🔥236👏2😁21



tgoop.com/data_secrets/7979
Create:
Last Update:

В польском стартапе Pathway создали новую архитектуру нейросетей – Biological Dragon Hatchling

Идея тут в основном в том, чтобы соединить две линии развития ИИ: всеми любимые трансформеры и модели мозга. Уже доказано, что между мозгом и трансформером есть связь (см эту статью от DeepMind). Тем не менее, до спопобностей нашей черепушки LLMкам пока далеко: не хватает нескольких основных свойств.

В общем, заканчивая лирическое вступление: тут взяли трансформер и решили впаять в него некоторые фичи из мозга. Получилась графовая архитектура, в которой нейроны – это вершины, а синапсы – рёбра с весами. Модель работает как распределённая система из нейронов, которые общаются только с соседями.

С обучением все тоже не как обычно. Наш мозг учится по правилу Хебба: нейроны, которые активируются вместе, укрепляют связь. Тут это реализовано без изменений, то есть если активность нейронов A и B часто совпадает, вес ребра между ними увеличивается, и логическая взаимосвязь становится крепче. Если присмотреться, то похоже на какой-то аналог механизма внимания.

И еще одно. Веса тут разделены на две группы: фиксированные и динамические. Аналог долговременной и кратковременной памяти. Фиксированные веса – это базовые знания, они обновляются только во время обучения и далее не меняются. Динамические веса нам нужны для ризонинга. Каждый шаг рассуждения – это локальное обновление связей.

Немного запутанно, НО авторы сделали тензорную версию (BDH-GPU). Она эквивалентна BDH, но выражена в виде обычных матриц и векторов, так что её можно обучать, как трансформер. По сути там все то же внимание, пару блоков MLP, ReLU и немного специфичные активации. Все знакомо.

Но оказалось, что система с такой архитектурой демонтрирует очень приятные свойства:

1. Интерпретируемость. Каждая пара нейронов (i, j) имеет свой синапс и хранит его состояние, которое можно наблюдать и отслеживать. Плюс, активации моносемантичны. Один нейрон действительно отвечает за одно понятие.

2. BDH может легко объединять две модели с помощью простой конкотенации. Представьте, какой простор для масштабирования.

3. И к слову про масштабирование: BDH показывает те же scaling laws, что и GPT-2, и при одинаковом числе параметров модель достигает схожей точности на ряде задач. Это значит, что основное свойство трансформера сохранено.

Красиво получилось. Если еще выпустят на этой архитектуре что-нибудь осязаемое, цены не будет.

Код | Статья

BY Data Secrets






Share with your friend now:
tgoop.com/data_secrets/7979

View MORE
Open in Telegram


Telegram News

Date: |

Add up to 50 administrators Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us


Telegram Data Secrets
FROM American