Не успеваю пока глубоко разобрать новые темы, которые кажутся перспективными, в очереди десятки статей. Так что пока - несколько интересных новостей, а также следом сделаю обобщающий переходный пост в продолжение новогодней серии, со ссылками на некоторые книги.
Осцилляторная Mamba
Одним из направлений является исследование временной организации биологических нейросетей, их способности организовываться в разномасштабные ритмы через синхронизацию импульсов. Эту идею попробовали приложить к state space models.
Continuos Thought Model
Еще одна свежая модель от Sakana.AI, на основе идеи о синхронизации нейронов и их активности во времени. Демки, статья.
Новые данные в пользу того, что разум в природе возникал больше одного раза (у птиц и млекопитающих). Не рассмотрены еще осьминоги и дельфины с китообразными.
Осцилляторная Mamba
Одним из направлений является исследование временной организации биологических нейросетей, их способности организовываться в разномасштабные ритмы через синхронизацию импульсов. Эту идею попробовали приложить к state space models.
Continuos Thought Model
Еще одна свежая модель от Sakana.AI, на основе идеи о синхронизации нейронов и их активности во времени. Демки, статья.
Новые данные в пользу того, что разум в природе возникал больше одного раза (у птиц и млекопитающих). Не рассмотрены еще осьминоги и дельфины с китообразными.
❤2
В предыдущей серии постов мы остановились, подойдя к границе большой научной парадигмы. Если не раcширять масштаб мысли сразу до размеров космоса (сделаем это позже), а рассмотреть саму границу, то она называется когнитивизм👁: моделирование психики и мышления как “механизмов восприятия”, “построение репрезентаций” и тому подобные вещи.
У этого подхода долгая научная предистория, почему сложилась именно такая постановка вопроса. В конце концов, человека всегда удивлял факт наличия у него субъективного опыта. Но этот подход не включает в себя еще как минимум половину картины - мозг существует для осуществления действий и деятельности. И, скорее даже, для этого в первую очередь. В последние годы исследователи в разных областях все больше включают этот отброшенный аспект в рассмотрение. Название этому подходу - энактивизм💪. Здесь главное не впадать в противопоставления: подходы не противоречат друг другу, более того, как мы уже видели, путь вперед лежит через поиск их объединения.
Именно в этом месте у современных LLM торчит культя в виде генератора случайных чисел. Генератор случайных чисел часто используют в математическом моделировании чтобы временно заменить что-то, что нам пока не очень важно или не известно, как устроено.
Моделирование действий изучалось отдельно в Reinforcement Learning (RL), но в виде логических алгоритмов (символический ИИ👮), без связи с нейронными механизмами (коннекционизм🌶). Поэтому с одной стороны такой хайп на счет давайте скорее соединять LLM + RL, с другой же, этот подход заранее ограничен. В текущем виде он не даст гибкости и адаптивности живого мозга. Должна существовать (и существует) более органичная склейка и реализация этих подсистем.
И здесь путем вперед видится не столько чистая математика, сколько биологические исследования и дизайн систем. Это немного иной подход, systems neuroscience🎊. Есть несколько интересных направлений, пытающихся подойти к этой задаче, возможно, сделаю обзор. А пока предложу несколько книг про устройство и моделирование мозга:
The Brain from Inside Out. Эту уже упоминал выше. Книга венгерского нейрофизиолога Юрия Бужаки. Четкость мышления, глубина интуиции и объем исследовательского опыта Юрия делают чтение сложным, но вдохновляющим и поучительным. Начиная с анализа привычных, но не годных понятий и терминов, продолжая раскрытием парадигмы энактивизма и ее экспериментальных подтверждений: изначально присущей мозгу внутренней активности, только опосредуемой последующими впечатлениями и наблюдениями.
Rhythms of the Brain. Еще одна книга Бужаки, в которой акцент сделан на изложении временной структуры нервных импульсов, разномасштабных ритмов и циклов в мозге, и объяснению как это всё вместе работает. Эти идеи лежат в основе математического аппарата oscillatory networks: нейронных сетей, управляемых резонансами.
23 Problems in Systems Neuroscience. Сборник статей ведущих нейрофизиологов по различным механизмам обработки информации в мозгу. Хорошо показывает современное состояние области, насколько мало мы в действительности еще знаем, и насколько мат. аппарат современных нейронных сетей далек от их биологического прообраза.
Models of the Mind. Обзор математических моделей нейронных вычислений в разных масштабах и в разных частях мозга. То что называется computational neuroscience🥅. Полезно видеть весь репертуар, и особенно вместе с предыдущей книгой - видеть разрыв, между уже формализованной частью и той, которая еще не, а также разницу стилей мышления.
У этого подхода долгая научная предистория, почему сложилась именно такая постановка вопроса. В конце концов, человека всегда удивлял факт наличия у него субъективного опыта. Но этот подход не включает в себя еще как минимум половину картины - мозг существует для осуществления действий и деятельности. И, скорее даже, для этого в первую очередь. В последние годы исследователи в разных областях все больше включают этот отброшенный аспект в рассмотрение. Название этому подходу - энактивизм💪. Здесь главное не впадать в противопоставления: подходы не противоречат друг другу, более того, как мы уже видели, путь вперед лежит через поиск их объединения.
Именно в этом месте у современных LLM торчит культя в виде генератора случайных чисел. Генератор случайных чисел часто используют в математическом моделировании чтобы временно заменить что-то, что нам пока не очень важно или не известно, как устроено.
Моделирование действий изучалось отдельно в Reinforcement Learning (RL), но в виде логических алгоритмов (символический ИИ👮), без связи с нейронными механизмами (коннекционизм🌶). Поэтому с одной стороны такой хайп на счет давайте скорее соединять LLM + RL, с другой же, этот подход заранее ограничен. В текущем виде он не даст гибкости и адаптивности живого мозга. Должна существовать (и существует) более органичная склейка и реализация этих подсистем.
И здесь путем вперед видится не столько чистая математика, сколько биологические исследования и дизайн систем. Это немного иной подход, systems neuroscience🎊. Есть несколько интересных направлений, пытающихся подойти к этой задаче, возможно, сделаю обзор. А пока предложу несколько книг про устройство и моделирование мозга:
The Brain from Inside Out. Эту уже упоминал выше. Книга венгерского нейрофизиолога Юрия Бужаки. Четкость мышления, глубина интуиции и объем исследовательского опыта Юрия делают чтение сложным, но вдохновляющим и поучительным. Начиная с анализа привычных, но не годных понятий и терминов, продолжая раскрытием парадигмы энактивизма и ее экспериментальных подтверждений: изначально присущей мозгу внутренней активности, только опосредуемой последующими впечатлениями и наблюдениями.
Rhythms of the Brain. Еще одна книга Бужаки, в которой акцент сделан на изложении временной структуры нервных импульсов, разномасштабных ритмов и циклов в мозге, и объяснению как это всё вместе работает. Эти идеи лежат в основе математического аппарата oscillatory networks: нейронных сетей, управляемых резонансами.
23 Problems in Systems Neuroscience. Сборник статей ведущих нейрофизиологов по различным механизмам обработки информации в мозгу. Хорошо показывает современное состояние области, насколько мало мы в действительности еще знаем, и насколько мат. аппарат современных нейронных сетей далек от их биологического прообраза.
Models of the Mind. Обзор математических моделей нейронных вычислений в разных масштабах и в разных частях мозга. То что называется computational neuroscience🥅. Полезно видеть весь репертуар, и особенно вместе с предыдущей книгой - видеть разрыв, между уже формализованной частью и той, которая еще не, а также разницу стилей мышления.
❤1
A Survey on Vision-Language-Action Models for Embodied AI
Исчерпывающий обзор текущих подходов к построению интегрированных end2end Vision-Language-Action моделей.
Исчерпывающий обзор текущих подходов к построению интегрированных end2end Vision-Language-Action моделей.
Forwarded from NeuroMetric
Лекции по нейроинформатике (2001-2010, 2014)
Эти лекции прочитаны разными авторами в рамках ежегодной конференции "Нейроинформатика". Содержательный материал.
https://neurolectures.narod.ru/
https://vk.com/wall-74058720_2943
https://vk.com/wall-74058720_2946
Эти лекции прочитаны разными авторами в рамках ежегодной конференции "Нейроинформатика". Содержательный материал.
https://neurolectures.narod.ru/
https://vk.com/wall-74058720_2943
https://vk.com/wall-74058720_2946
neuroinfo.ru
Neuroinformatics - 2025 - Общая информация
Прекрасный цикл лекций по анатомии нервной системы «интонацией Жириновского» от доктора мед. наук Эдгара Кафарова для студентов мед. вуза :) — https://youtube.com/playlist?list=PLLSkuEB_noXdBPKxK6AoidvXR3m18R7i9
YouTube
Нервная система
Share your videos with friends, family, and the world
😁1
Forwarded from EFEMERA: AI news
Anthropic выпустили «рентген» LLM в открытый доступ
◯ Anthropic выложила инструменты для анализа работы языковых моделей (отслеживание мыслей LLM)
◯ Открытый доступ к инструменту на платформе Neuronpedia
◯ Новая система позволяет визуально отслеживать влияние токенов друг на друга
◯ Исследователи могут проводить интерактивные эксперименты и тестировать гипотезы, модифицируя признаки модели
◯ Можно визуализировать и аннотировать "цепочки" для многошаговых рассуждений
◯ Инструменты включают Attribution graphs и Neuronpedia UI для анализа
◯ Пользователи могут находить ошибки рассуждений и исправлять их on-the-fly
◯ Код проекта в GitHub
@EF9MERA
Источник
◯ Anthropic выложила инструменты для анализа работы языковых моделей (отслеживание мыслей LLM)
◯ Открытый доступ к инструменту на платформе Neuronpedia
◯ Новая система позволяет визуально отслеживать влияние токенов друг на друга
◯ Исследователи могут проводить интерактивные эксперименты и тестировать гипотезы, модифицируя признаки модели
◯ Можно визуализировать и аннотировать "цепочки" для многошаговых рассуждений
◯ Инструменты включают Attribution graphs и Neuronpedia UI для анализа
◯ Пользователи могут находить ошибки рассуждений и исправлять их on-the-fly
◯ Код проекта в GitHub
@EF9MERA
Источник
❤🔥3🔥1
Large Language Models Often Know When They Are Being Evaluated
Модели способны с неплохой достоверностью, хотя и ниже человеческой, определять являются ли запросы к ним частью оценки/бенчмарка, и даже выявлять, на какие именно критерии их тестируют. Так как это поведение выявлено в рамках синтетического теста, не ясно, могут ли они применять это в рамках реальных прогонов на бенчмарках. Парадокс в том, что достаточно того, чтобы обсуждение этой статьи попало в претрейн (а оно попадет, и скоро) - и они точно смогут.
Модели способны с неплохой достоверностью, хотя и ниже человеческой, определять являются ли запросы к ним частью оценки/бенчмарка, и даже выявлять, на какие именно критерии их тестируют. Так как это поведение выявлено в рамках синтетического теста, не ясно, могут ли они применять это в рамках реальных прогонов на бенчмарках. Парадокс в том, что достаточно того, чтобы обсуждение этой статьи попало в претрейн (а оно попадет, и скоро) - и они точно смогут.
Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism
Новый протокол и алгоритм сжатия позволяет тренировать сетки на сетках… ладно, зайдем иначе, тренировать большие модели на распределенных сетях устройств -пользовательского класса-. То есть, на множестве пользовательских компьютеров, подключенных к интернету, преодолевая все проблемы с нестабильностью топологии такой сети, низкой мощностью каждого отдельного устройства, временными задержками, пропажей пакетов и прочими шумами. С характеристиками сравнимыми с обучением в централизованных датацентрах. То есть датацентры не то чтобы больше не нужны, но теперь это не единственный вариант, и опенсорс внезапно получает буст.
Напоминает сцену из «Назад в будущее», когда профессор вернулся из этого самого будущего и закидывает в бак машины времени всякий шлак из ближайшей мусорки, а затем со словами «дороги, дороги, кому нужны эти дороги», взлетает и исчезает в воздухе.. :)
Новый протокол и алгоритм сжатия позволяет тренировать сетки на сетках… ладно, зайдем иначе, тренировать большие модели на распределенных сетях устройств -пользовательского класса-. То есть, на множестве пользовательских компьютеров, подключенных к интернету, преодолевая все проблемы с нестабильностью топологии такой сети, низкой мощностью каждого отдельного устройства, временными задержками, пропажей пакетов и прочими шумами. С характеристиками сравнимыми с обучением в централизованных датацентрах. То есть датацентры не то чтобы больше не нужны, но теперь это не единственный вариант, и опенсорс внезапно получает буст.
Напоминает сцену из «Назад в будущее», когда профессор вернулся из этого самого будущего и закидывает в бак машины времени всякий шлак из ближайшей мусорки, а затем со словами «дороги, дороги, кому нужны эти дороги», взлетает и исчезает в воздухе.. :)
🔥1
Как в биологических сетях работает петля обратной связи до сих пор не понятно. Множество различных формализаций так или иначе пытается ее реализовать:
- Обратное распространение ошибки (backpropagation)
- Рекуррентные архитектуры (RNN)
- Предиктивное кодирование (Predictive coding)
- Энергетические модели (energy-based models - EBM, включая сети Хопфилда), за которые, в частности, топит Лекун
- Различные известные петли в нейронных путях в мозгу
- Скорее всего, список можно продолжить
EBM-модели на данный момент не сильно популярны (опять же, кроме как у Лекуна, который их активно исследует, и вся его JEPA основана на них).
Интересны они тем, что выдают результат не за один проход, а в результате итеративного согласования состояния сети, постепенно его уточняя. Что формирует кажется намного более гибкую модель вычислений, и по некоторым сведениям, похожую на биологическую. Идея Лекуна - иерархические сети этого класса и предсказания в их латентом пространстве, а не в пространстве стимулов/данных.
Я попросил ChatGPT сделать обзор этой области исследований, и получил очень качественные 18 страниц, вот они: Обзор моделей, основанных на энергии (EBM).
Получилось очень интересно, но совершенно зубодробительно. Признаю, я не очень много понимаю в тех идеях, которые изложены в этом обзоре, но это тот уровень владения наукой, который вызывает уважение и позволяет двигать ее вперед. Не знаю, еще одна магистратура или бородатый наставник кажутся нужными, чтобы вникнуть в такую глубину. Вдруг у кого есть?
Также, в последнее время текстовые диффузионные модели достигли определенных успехов, и даже есть уже некоторые коммерческие релизы на их основе, см., например, Mercury Coder, Gemini Diffusion, LLaDA. От авторегрессионных (трансформеров) они отличаются тем, что генерируют черновик всего текста сразу и за несколько шагов его уточняют, тоже весь сразу целиком. Это в некотором смысле похоже на то, как работают EBM.
А вот интересный гибрид, совмещающий идеи EBM, diffusion models и генерации в текстовом домене, достигающий вполне интересных метрик:
Energy-Based Diffusion Language Models for Text Generation
- Обратное распространение ошибки (backpropagation)
- Рекуррентные архитектуры (RNN)
- Предиктивное кодирование (Predictive coding)
- Энергетические модели (energy-based models - EBM, включая сети Хопфилда), за которые, в частности, топит Лекун
- Различные известные петли в нейронных путях в мозгу
- Скорее всего, список можно продолжить
EBM-модели на данный момент не сильно популярны (опять же, кроме как у Лекуна, который их активно исследует, и вся его JEPA основана на них).
Интересны они тем, что выдают результат не за один проход, а в результате итеративного согласования состояния сети, постепенно его уточняя. Что формирует кажется намного более гибкую модель вычислений, и по некоторым сведениям, похожую на биологическую. Идея Лекуна - иерархические сети этого класса и предсказания в их латентом пространстве, а не в пространстве стимулов/данных.
Я попросил ChatGPT сделать обзор этой области исследований, и получил очень качественные 18 страниц, вот они: Обзор моделей, основанных на энергии (EBM).
Получилось очень интересно, но совершенно зубодробительно. Признаю, я не очень много понимаю в тех идеях, которые изложены в этом обзоре, но это тот уровень владения наукой, который вызывает уважение и позволяет двигать ее вперед. Не знаю, еще одна магистратура или бородатый наставник кажутся нужными, чтобы вникнуть в такую глубину. Вдруг у кого есть?
Также, в последнее время текстовые диффузионные модели достигли определенных успехов, и даже есть уже некоторые коммерческие релизы на их основе, см., например, Mercury Coder, Gemini Diffusion, LLaDA. От авторегрессионных (трансформеров) они отличаются тем, что генерируют черновик всего текста сразу и за несколько шагов его уточняют, тоже весь сразу целиком. Это в некотором смысле похоже на то, как работают EBM.
А вот интересный гибрид, совмещающий идеи EBM, diffusion models и генерации в текстовом домене, достигающий вполне интересных метрик:
Energy-Based Diffusion Language Models for Text Generation
❤3
Очень интересный, относительно прямолинейный и вероятный взгляд на ближайшее развитие ИИ от стартапа Mechanize, Inc.
Идея в том, что модели предшествующего поколения отличались от GPT-3, которая все перевернула, тем что они тренировались на отдельных узких небольших наборах данных, и отдельно под каждую задачу. GPT-3 же впервые отмасштабировала архитектуру и датасет так, что одна модель обучалась на ВСЕХ знаниях сразу. Это резко усилило глубину генерализации и привело к возможности zero-shot выполнения неизвестных задач (без дополнительного обучения, то что стало «промптами»).
Так вот, текущее состояние RL похоже на эту до-GPT-3 эру: предтренированные модели дотренировываются на небольших узких разрозненных датасетах с результатами действий. Кажется, просто просится идея отрастить эти датасеты до одного большого, богатого, разнообразного, и прийти таким образом к генерализации действий в RL, аналогичной генерализации знаний, произошедшей в GPT-3.
Красиво. Изящно. Я бы поставил на это. Но это просто как идея, а вот реализация нетривиальна, где брать массивные датасеты с верифицируемыми вариантами деятельности?
Авторы предлагают это делать за счет replication learning: в качестве источников датасетов брать весь существующий софт, который что-то делает. По крайней мере все информационно-программные действия так действительно можно собрать.
Но по этой же схеме можно потом расширить идею и до физических и других действий, например, собирая данные с людей или их действий в реальном мире с помощью технически несложных датчиков.
Звучит как план. Будем следить.
Идея в том, что модели предшествующего поколения отличались от GPT-3, которая все перевернула, тем что они тренировались на отдельных узких небольших наборах данных, и отдельно под каждую задачу. GPT-3 же впервые отмасштабировала архитектуру и датасет так, что одна модель обучалась на ВСЕХ знаниях сразу. Это резко усилило глубину генерализации и привело к возможности zero-shot выполнения неизвестных задач (без дополнительного обучения, то что стало «промптами»).
Так вот, текущее состояние RL похоже на эту до-GPT-3 эру: предтренированные модели дотренировываются на небольших узких разрозненных датасетах с результатами действий. Кажется, просто просится идея отрастить эти датасеты до одного большого, богатого, разнообразного, и прийти таким образом к генерализации действий в RL, аналогичной генерализации знаний, произошедшей в GPT-3.
Красиво. Изящно. Я бы поставил на это. Но это просто как идея, а вот реализация нетривиальна, где брать массивные датасеты с верифицируемыми вариантами деятельности?
Авторы предлагают это делать за счет replication learning: в качестве источников датасетов брать весь существующий софт, который что-то делает. По крайней мере все информационно-программные действия так действительно можно собрать.
Но по этой же схеме можно потом расширить идею и до физических и других действий, например, собирая данные с людей или их действий в реальном мире с помощью технически несложных датчиков.
Звучит как план. Будем следить.
Mechanize Inc.
The upcoming GPT-3 moment for RL
Mechanize is a software company that builds RL environments and sells them to the leading AI labs.
❤2
Магию подвозят просто оптом. Сразу две статьи резко поднимающие возможности небольших моделей:
Reinforcement Learning Teachers
POLARIS
Обе модифицируют отбор примеров для RL и получают впечатляющие возможности на очень маленьких моделях, споря по результативности с огромными фронтир-моделями. Спонсор поста «GPT в телефоне: скорее чем ожидали».
Reinforcement Learning Teachers
POLARIS
Обе модифицируют отбор примеров для RL и получают впечатляющие возможности на очень маленьких моделях, споря по результативности с огромными фронтир-моделями. Спонсор поста «GPT в телефоне: скорее чем ожидали».
❤1
Learning to Reason without External Rewards
Тот случай, когда явно новая идея, но ее полезность пока не очевидна. К дообучению LLM с помощью RL существовало два основных подхода.
Первый - RLHF (Reinforcement Learning from Human Feedback) - дообучение на оценках и примерах от людей (в основном так учат поддерживать полезный диалог и соблюдать политкорректность).
Второй - RLVR (Reinforcement Learning with Verifiable Rewards) - дообучение на задачах, истинность решений которых можно проверить алгоритмически (математика, программирование, так учат «рассуждениям» в узких доменах).
Авторы статьи предлагают новый метод в рамках третьего подхода - RLIF (Reinforcement Learning from Internal Feedback). Идея в том, чтобы использовать в качестве оценки «степень уверенности» модели в своем ответе. В неоднозначных и неопределенных ситуациях выходное распределение моделей размазано на много более-менее вероятных токенов, а когда ответ ясен - есть узкий пик(и) на точно верном токене или нескольких его вариантах. В качестве оценки ответа берется KL-дивергенция между выходным распределением модели и равномерным распределением (когда все варианты «равновероятны»). Для обучения используется метод GRPO, предложенный DeepSeek.
В результате:
- достигли близких к RLVR результатов на бенчмарках;
- убирается необходимость во внешних данных для обучения, а значит и ограничения, связанные с их сбором (трудоемкость, стоимость, ограниченность);
- обученные таким образом модели показывают способность к структурным рассуждениям, а не перебору вариантов из примеров;
- модели показывают хорошую генерализацию и перенос рассуждений на другие домены, в отличие от узконаправленных рассуждений RLVR;
- говорят о снижении степени «взлома вознаграждения» (reward hacking), когда модель находит обходные чит-коды достижения награды без полноценного решения задачи.
Выглядит как интересное направление. Но все же:
- поиск вариантов все еще остается случайным, на основе тех цепочек, которые освоила базовая модель без учителя. Не ясно, насколько это способствует возникновению регулярных рассуждений или остается более или менее вариантом перебора;
- в жизни подобные рассуждения, основанные на собственной убежденности, прямой путь в галлюцинации и шизофрению. Не ясно, насколько это верно для моделей и если нет, то почему. Или где проходит та граница, когда из полезного этот подход станет вредным.
Источник
Тот случай, когда явно новая идея, но ее полезность пока не очевидна. К дообучению LLM с помощью RL существовало два основных подхода.
Первый - RLHF (Reinforcement Learning from Human Feedback) - дообучение на оценках и примерах от людей (в основном так учат поддерживать полезный диалог и соблюдать политкорректность).
Второй - RLVR (Reinforcement Learning with Verifiable Rewards) - дообучение на задачах, истинность решений которых можно проверить алгоритмически (математика, программирование, так учат «рассуждениям» в узких доменах).
Авторы статьи предлагают новый метод в рамках третьего подхода - RLIF (Reinforcement Learning from Internal Feedback). Идея в том, чтобы использовать в качестве оценки «степень уверенности» модели в своем ответе. В неоднозначных и неопределенных ситуациях выходное распределение моделей размазано на много более-менее вероятных токенов, а когда ответ ясен - есть узкий пик(и) на точно верном токене или нескольких его вариантах. В качестве оценки ответа берется KL-дивергенция между выходным распределением модели и равномерным распределением (когда все варианты «равновероятны»). Для обучения используется метод GRPO, предложенный DeepSeek.
В результате:
- достигли близких к RLVR результатов на бенчмарках;
- убирается необходимость во внешних данных для обучения, а значит и ограничения, связанные с их сбором (трудоемкость, стоимость, ограниченность);
- обученные таким образом модели показывают способность к структурным рассуждениям, а не перебору вариантов из примеров;
- модели показывают хорошую генерализацию и перенос рассуждений на другие домены, в отличие от узконаправленных рассуждений RLVR;
- говорят о снижении степени «взлома вознаграждения» (reward hacking), когда модель находит обходные чит-коды достижения награды без полноценного решения задачи.
Выглядит как интересное направление. Но все же:
- поиск вариантов все еще остается случайным, на основе тех цепочек, которые освоила базовая модель без учителя. Не ясно, насколько это способствует возникновению регулярных рассуждений или остается более или менее вариантом перебора;
- в жизни подобные рассуждения, основанные на собственной убежденности, прямой путь в галлюцинации и шизофрению. Не ясно, насколько это верно для моделей и если нет, то почему. Или где проходит та граница, когда из полезного этот подход станет вредным.
Источник
Вспомни EBM, они и появятся. В продолжение истории: Energy-Based Transformer.
Заявляют, что:
- учится на всех модальностях;
- реализует масштабируемые learning и reasoning (test-time compute) во всех модальностях, без дообучения и внешних наград, только на базовой модели без учителя;
- масштабируется в среднем на 30% лучше трансформера по всем осям масштабирования (данные, размер модели, размер батча, размер эмбеддинга);
- показывает генерализацию лучше относительно предыдущих методов.
Пока довели размер модели до 800M. И пока, очевидно, не очень хорошая аппаратная поддержка.
Заявляют, что:
- учится на всех модальностях;
- реализует масштабируемые learning и reasoning (test-time compute) во всех модальностях, без дообучения и внешних наград, только на базовой модели без учителя;
- масштабируется в среднем на 30% лучше трансформера по всем осям масштабирования (данные, размер модели, размер батча, размер эмбеддинга);
- показывает генерализацию лучше относительно предыдущих методов.
Пока довели размер модели до 800M. И пока, очевидно, не очень хорошая аппаратная поддержка.
В августе красота: Volga Neuroscience Meeting 2025 и Научная школа
Нейропластичность, обучение и память. Кажется, одни из наиболее прогрессивных мероприятий в России по теоретической нейронауке.
Нейропластичность, обучение и память. Кажется, одни из наиболее прогрессивных мероприятий в России по теоретической нейронауке.
volganeuroscience.ru
Volga Neuroscience 2025
Легендарная конференция соберет ученых со всех областей нейронаук на одной площадке
❤1
Джефф Хокинс, человек, который придумал Palm Pilot, а когда его не взяли в нейрофизиологические институты, создал свою лабораторию по теоретической нейронауке (1, 2). Затем основал компанию Numenta. Джефф пытается выявить универсальный вычислительный алгоритм коры больших полушарий головного мозга.
В 2004 он представил концепцию Hierarchical Temporal Memory (HTM) и книгу On Intelligence, в которой эта концепция описана. Модель была доведена до инженерной реализации и воплощала пространственно-временную интеграцию признаков в разных масштабах, смоделированную на основе знаний о колонках кортекса. В качестве базового взят уровень абстракции между ANN и SNN: бинарные импульсы. Модель нашла практическое приложение в time series anomaly detection, и на гитхабе можно найти варианты ее исходного кода.
В 2021 году Джефф представил новую книгу: A Thousand Brains: A New Theory of Intelligence, (в 2024 вышел ее русский перевод — 1000 мозгов. Новая теория интеллекта). Если совсем в двух словах, эта теория проводит аналогию между гиппокампом и корой и предполагает что в колонках коры работает тот же механизм интеграции между “путем”/“действием”/“маршрутом” и сенсорными образами. За счет чего строятся карты переходов между состояниями, на основе которых потом планируются и физические действия, и навигация в пространстве, и рассуждения в абстрактных пространствах. Теория предполагает, что 1) каждая кортикальная колонка представляет собой такой мини-интегратор 2) колонки организуются иерархически, так что латентные представления одних могут становиться входами других 3) колонки действуют независимо друг от друга, но сообщаются связями и приходят к совместным выводам “большинством голосов”.
На днях вышел популярный видеообзор этой теории от Артема Кирсанова: A Fundamental Unit Of Intelligence, в котором можно за 20 минут узнать все ключевые идеи.
А вчера группа Джеффа выпустила наконец две майлстоун-публикации, в которых формально презентовала результаты своей работы за последние годы:
Hierarchy or Heterarchy?
A Theory of Long-Range Connections for the Sensorimotor Brain
архив / видеопрезентация / блогпост
Здесь изложена сама теория в опоре на физиологию
Thousand-Brains Systems:
Sensorimotor Intelligence for Rapid, Robust Learning and Inference
архив / видеопрезентация / блогпост
Здесь представлена численная реализация модели и сравнение метрик с архитектурой ViT.
У проекта есть официальный сайт, форум и гитхаб. На мой вкус, вместе с active predictive coding, теориями/моделями гиппокампа, к которым мы, возможно, еще вернемся и еще несколькими направлениями, это одно из наиболее интересных текущих исследований.
В 2004 он представил концепцию Hierarchical Temporal Memory (HTM) и книгу On Intelligence, в которой эта концепция описана. Модель была доведена до инженерной реализации и воплощала пространственно-временную интеграцию признаков в разных масштабах, смоделированную на основе знаний о колонках кортекса. В качестве базового взят уровень абстракции между ANN и SNN: бинарные импульсы. Модель нашла практическое приложение в time series anomaly detection, и на гитхабе можно найти варианты ее исходного кода.
В 2021 году Джефф представил новую книгу: A Thousand Brains: A New Theory of Intelligence, (в 2024 вышел ее русский перевод — 1000 мозгов. Новая теория интеллекта). Если совсем в двух словах, эта теория проводит аналогию между гиппокампом и корой и предполагает что в колонках коры работает тот же механизм интеграции между “путем”/“действием”/“маршрутом” и сенсорными образами. За счет чего строятся карты переходов между состояниями, на основе которых потом планируются и физические действия, и навигация в пространстве, и рассуждения в абстрактных пространствах. Теория предполагает, что 1) каждая кортикальная колонка представляет собой такой мини-интегратор 2) колонки организуются иерархически, так что латентные представления одних могут становиться входами других 3) колонки действуют независимо друг от друга, но сообщаются связями и приходят к совместным выводам “большинством голосов”.
На днях вышел популярный видеообзор этой теории от Артема Кирсанова: A Fundamental Unit Of Intelligence, в котором можно за 20 минут узнать все ключевые идеи.
А вчера группа Джеффа выпустила наконец две майлстоун-публикации, в которых формально презентовала результаты своей работы за последние годы:
Hierarchy or Heterarchy?
A Theory of Long-Range Connections for the Sensorimotor Brain
архив / видеопрезентация / блогпост
Здесь изложена сама теория в опоре на физиологию
Thousand-Brains Systems:
Sensorimotor Intelligence for Rapid, Robust Learning and Inference
архив / видеопрезентация / блогпост
Здесь представлена численная реализация модели и сравнение метрик с архитектурой ViT.
У проекта есть официальный сайт, форум и гитхаб. На мой вкус, вместе с active predictive coding, теориями/моделями гиппокампа, к которым мы, возможно, еще вернемся и еще несколькими направлениями, это одно из наиболее интересных текущих исследований.
❤2🤯1
Forwarded from Нейрокампус
⇥ «Основы нейробиологии», Филипп Хайтович
⇥ «Основы нейровизуализации, нейроинтерфейсы», Алекс Осадчий, Алексей Тумялис
⇥ «Введение в неврологию и нейрохирургию», Михаил Синкин и Вадим Русскин
⇥ «Введение в молекулярную биологию», Дарья Серебряная
⇥ «Теория эволюции нервной системы», Дарья Романова
Все курсы являются бесплатными и читаются ведущими учеными!
#нейроакадемия @neurocampus2030
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2
☀️ Genie 3 от Google Deepmind
Впечатляет. Сначала были первые генеративные картиночные модели, потом видеомодели, потом появились интерактивные модели игровых миров, и вот теперь следующее слово в world models - одном из ключевых компонентов для развитого восприятия и планирования.
Genie 3:
- генерирует анимированный интерактивный мир по текстовому промпту
- в высоком качестве кадра (720p) и в реальном времени (24 fps)
- управляемое перемещение по миру
- генерация событий в мире по текстовому промпту на лету
- сохранение консистентности мира в течение нескольких минут: будут сохраняться все произошедшие изменения и отслеживаться вся навигация без артефактов
Видео
Подробнее и еще видео
Впечатляет. Сначала были первые генеративные картиночные модели, потом видеомодели, потом появились интерактивные модели игровых миров, и вот теперь следующее слово в world models - одном из ключевых компонентов для развитого восприятия и планирования.
Genie 3:
- генерирует анимированный интерактивный мир по текстовому промпту
- в высоком качестве кадра (720p) и в реальном времени (24 fps)
- управляемое перемещение по миру
- генерация событий в мире по текстовому промпту на лету
- сохранение консистентности мира в течение нескольких минут: будут сохраняться все произошедшие изменения и отслеживаться вся навигация без артефактов
Видео
Подробнее и еще видео
Google DeepMind
Genie 3: A new frontier for world models
Today we are announcing Genie 3, a general purpose world model that can generate an unprecedented diversity of interactive environments. Given a text prompt, Genie 3 can generate dynamic worlds...
👍1🤯1
Красивая постановка вопроса. Какими минимальными изменениями возможно перейти от обучения «фрагментированных запутанных представлений» к обучению «унифицированных факторизованных представлений»? : https://www.tgoop.com/gonzo_ML_podcasts/798
Telegram
gonzo_ML_podcasts
Фрагментированный интеллект: почему лучшие ИИ-модели могут не обладать истинным пониманием
Title: Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis
Authors: Akarsh Kumar, Jeff Clune, Joel Lehman, Kenneth…
Title: Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis
Authors: Akarsh Kumar, Jeff Clune, Joel Lehman, Kenneth…
❤1