tgoop.com/data_secrets_chat/186742
Last Update:
Тем, кто интересуется исследованиями альтернативных направлений в ML, думаю, будет интересно почитать.
В общем, ситуация следующая. Последние ~10 лет я занимаюсь вопросами дискретного подхода к ML, последние 3 года фултайм. Моя группа исследует механизм возникновения понятий, поиск смысла в информации и роль памяти в том и другом. Сразу скажу, что к академиям я не имею никакого отношения.
Недавно на arXiv-е была опубликована наша статья (~60 стр). В нее вошли базовый мат аппарат и подход к структурному кодированию стимулов. Семантика будет описана отдельно, в последующих статьях.
В этой статье мы с коллегами исследуем дискретный подход к машинному обучению, в котором и данные и сама модель представляются дискретными элементами памяти (по сути, воспоминаниями).
Наша архитектура позволяет:
- Интерпретировать воспоминания модели на всех уровнях;
- Точечно редактировать и удалять воспоминания;
- Объединять несколько обученных моделей в одну;
- Изменять топологию модели без разрушения и потери прогресса обучения;
- Непрерывное (онлайн) обучение;
- Прочее (описано в статье в главе 8)
Мы считаем, что языковая модель, построенная по таким принципам, будет устойчива к галлюцинациям (точнее к конфабуляции) и, в идеале, будет иметь критичность, сравнимую с человеческой. А если нет, ее можно будет настроить, заставить забыть плохое и гарантировать, что его физически нет в памяти модели (это напоминает обучение моделей Phi и OSS, но шиворот-навыворот).
Все это возможно благодаря отходу от классических методов и архитектур и переходу к дискретному представлению. То есть, нейросетей в обычном понимании у нас нет, как нет и обратного распространения ошибки.
В основе всего метода — работа на всех уровнях с дискретными элементами (разреженными битовыми векторами). Первичное кодирование стимулов, обработка, хранение памяти — все дискретное.
Мы опираемся на гипотезу многообразия, лемму Йонеды и feature engneering на уровне первичных кодов. Помимо этого мы старательно подглядывали в устройство человеческих (и не только) мозгов. Конкретно в устройство неокортекса, гиппокампа, стриарной коры у врановых, ганглиозных (ганглионарных) клеток сетчатки и волосковых клеток кортиева органа.
Важный момент в том, что у нас структура данных и их семантика это два непересекающихся домена.
Суть обработки:
1. Сначала наблюдаем и запоминаем много кодов стимулов
2. Кладем стимулы на 2D пространство и производим понижение их размерности для выявления паттернов и структур
3. Кластеризуем полученную карту
4. Формируем иерархию детекторов, описывающую структурные особенности пространства кодов
5. Получаем дискретные структурные эмбеддинги
6. Эти коды ложатся в основу алгоритмов семантики, которые потом дадут дискретные семантические эмбеддинги
7. Процесс повторяется на следующем уровне иерархии
Вся статья — мотивация того, почему мы вообще считаем, что это будет работать и что нам не нравится в существующих подходах. Ну и разбор примеров, которые показывают, что:
1. метод и коды работают на разных модальностях
2. система соответствует заявленным хотелкам
Эта статья делает первый шаг в описании нашего метода и концентрируется на структурном представлении данных. Семантика будет позже.
BY Korvin 0x7CFE in Data Secrets [CHAT]

Share with your friend now:
tgoop.com/data_secrets_chat/186742