Data Secrets@data_secrets P.7979

Data Secrets

В польском стартапе Pathway создали новую архитектуру нейросетей – Biological Dragon Hatchling

Идея тут в основном в том, чтобы соединить две линии развития ИИ: всеми любимые трансформеры и модели мозга. Уже доказано, что между мозгом и трансформером есть связь (см эту статью от DeepMind). Тем не менее, до спопобностей нашей черепушки LLMкам пока далеко: не хватает нескольких основных свойств.

В общем, заканчивая лирическое вступление: тут взяли трансформер и решили впаять в него некоторые фичи из мозга. Получилась графовая архитектура, в которой нейроны – это вершины, а синапсы – рёбра с весами. Модель работает как распределённая система из нейронов, которые общаются только с соседями.

С обучением все тоже не как обычно. Наш мозг учится по правилу Хебба: нейроны, которые активируются вместе, укрепляют связь. Тут это реализовано без изменений, то есть если активность нейронов A и B часто совпадает, вес ребра между ними увеличивается, и логическая взаимосвязь становится крепче. Если присмотреться, то похоже на какой-то аналог механизма внимания.

И еще одно. Веса тут разделены на две группы: фиксированные и динамические. Аналог долговременной и кратковременной памяти. Фиксированные веса – это базовые знания, они обновляются только во время обучения и далее не меняются. Динамические веса нам нужны для ризонинга. Каждый шаг рассуждения – это локальное обновление связей.

Немного запутанно, НО авторы сделали тензорную версию (BDH-GPU). Она эквивалентна BDH, но выражена в виде обычных матриц и векторов, так что её можно обучать, как трансформер. По сути там все то же внимание, пару блоков MLP, ReLU и немного специфичные активации. Все знакомо.

Но оказалось, что система с такой архитектурой демонтрирует очень приятные свойства:

1. Интерпретируемость. Каждая пара нейронов (i, j) имеет свой синапс и хранит его состояние, которое можно наблюдать и отслеживать. Плюс, активации моносемантичны. Один нейрон действительно отвечает за одно понятие.

2. BDH может легко объединять две модели с помощью простой конкотенации. Представьте, какой простор для масштабирования.

3. И к слову про масштабирование: BDH показывает те же scaling laws, что и GPT-2, и при одинаковом числе параметров модель достигает схожей точности на ряде задач. Это значит, что основное свойство трансформера сохранено.

Красиво получилось. Если еще выпустят на этой архитектуре что-нибудь осязаемое, цены не будет.

Код | Статья

❤132👍37🔥236👏2😁21

www.tgoop.com/data_secrets/7979

14.5K viewsOct 7 at 16:30

tgoop.com/data_secrets/7979

Create: 2025-10-07
Last Update: 2025-10-08 23:20:06

BY Data Secrets

Share with your friend now:
tgoop.com/data_secrets/7979

Telegram News

В польском стартапе Pathway создали новую архитектуру нейросетей – Biological Dragon Hatchling