Subjective Intelligence

Кроме ризонинга, объединения модальностей и планирования/действий, уменьшения датасетов/увеличения емкости моделей, еще одно направление, которое, как и все перечисленные, развивается уже не первый год, это линеаризация трансформеров. Предыдущие посты об этом: Mamba, Jamba, RWKV.

Основных мотивов у этой линии исследования два. Один технический: квадратичная сложность внимания в сочетании с парадигмой скейлинга (масштабирования) в обычных трансформерах не дает людям спокойно спать, хочется придумать что-то более эффективное. Тем более, как показывает множество разных экспериментов, “половина весов лишняя”, но как в маркетинге “мы точно не знаем, какая”. Второй мотив на уровне стратегического направления: кажется, что мозг не запоминает отношения ВСЕГО СО ВСЕМ, у него есть какой-то способ выбирать, что запоминать, а что нет, а общая емкость его, хоть и велика, но все же не бесконечна. То есть существуют какие-то механизмы отбора, что именно запоминается, а также, что именно вытесянется более новыми данными, и как сохранить возможность точной адресации при этом.

Хороший обзор исторического развития этого направления с зарождения в 2020 году, его текущего состояния, и ближайшего будущего. Выступают авторы семейства RWKV (которые месяц назад, в конце ноября, выпустили уже 7-ю версию модели):

🌶 2024 in Post-Transformer Architectures: State Space Models, RWKV

В выступлении:
1. Принципиальные идеи/шаги, обеспечившие развитие направления (со ссылками на все ключевые статьи):
- обращение к рекуррентным моделям, как более эффективным по параметрам, и почему не сработало прореживание матриц внимания в лоб (но может еще сработать на новом этапе)
- решение проблемы с параллелизацией обучения рекуррентных моделей (иначе невозможно обучить большие версии) через переформулирование их в виде сверток
- разработка CUDA кернелов для эффективного аппаратного ускорения
- механизмы управляемой данными селекции в рекуррентном потоке (состоянии)
- новые приемы промптинга и постановки задачи для такого класса моделей: оказалось, очень эффективно повторить целиком и запрос и данные еще раз, вместо составления сложных промптов как для трансформеров
2. История создания и развития RWKV, кратко отличия от второй ветки - моделей Mamba. Метрики текущего поколения (сравнимы с трансформерами при меньшем числе параметров).
3. Ближайшее будущее, формализация примитивов для разработки CUDA-ядер, чтобы тратить меньше времени каждый раз на их написание, и созданная для этого библиотека ThunderKittens: статья, гитхаб.

❤1

42 viewsedited 15:43