Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
101 - Telegram Web
Telegram Web
Прошел летнюю школу университета Ольстера (Ирландия) по вычислительной нейронауке: Computational Neuroscience, Neurotechnology and Neuro-inspired AI Summer School. Было интенсивно и классно. Обзор физиологии, нейрональная динамика, алгоритмы обучения, непрерывное обучение, спайковые сети, интерфейсы мозг-компьютер, нейроробототехника, нейрореабилитация, обработка сигналов и не только. Теперь у меня, как у всякого шарлатана, есть сертификат :) Боги храните интернет.
🔥4
Эппл выпустила новый оптимизатор, который улучшает сходимость моделей почти в 2 раза относительно текущего практически стандартного AdamW, а кроме того снижает катастрофическое забывание. Вот что делает пристальный взгляд в одну точку :) сейчас народ проверит, насколько широко это работает.

https://arxiv.org/abs/2409.03137
🔥2👍1
👁‍🗨 Физтех-школа прикладной математики и информатики МФТИ приглашает на Международную конференцию «Нейроинформатика-2024», которая пройдет с 21 по 25 октября на кампусе Физтеха!

🧠 «НЕЙРОИНФОРМАТИКА» – многоплановый научный форум, на котором обсуждаются вопросы теории и приложений искусственных нейронных сетей, проблемы нейробиологии и системной биофизики, задачи адаптивного поведения и когнитивных исследований и другие актуальные проблемы нейронаук.

🔥 Регистрация гостей открыта до 23:59 20 октября: https://clck.ru/3Dpm2S

👨‍💻 21 октября в рамках конференции пройдет воркшоп «Нейронные сети и искусственный интеллект» для студентов и молодых ученых. Участники смогут представить свои постеры, посвященные следующим темам:

🔹 Нейроинформатика и искусственный интеллект
🔹 Теория нейронных сетей
🔹 Вычислительные исследования принципов и механизмов работы естественных нейронных систем
🔹 Нейросетевые парадигмы и архитектуры
🔹 Нейрокомпьютеры, нейроморфные вычисления и импульсные нейронные сети
🔹 Глубокое обучение
🔹 Обучение с подкреплением в нейробиологии и в системах искусственного интеллекта
🔹 Прикладные нейросетевые системы
🔹 Интерфейс «Мозг-компьютер». Нейротехнологии
🔹 Современные методы и технологии в нейробиологии
🔹 Нейронные сети и когнитивные науки. Адаптивное поведение и эволюционное моделирование

❗️ Три лучших постера будут награждены ценными призами.

🔗 Сбор постеров открыт до 12:00 20 октября: https://clck.ru/3Dpm4M

📧 По всем вопросам пишите Валентине в Тг @Dorefeya

Не упустите шанс стать частью масштабного события в области нейронаук!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Pavel Lebedev
https://arxiv.org/abs/2410.07095
OpenAI выпустил бенчмарк для агентов решающих каггл-соревы, и много всего потестировал: как справляются разные модели, разные агентные фреймворки, как их лучше масштабировать, как справляться с контаминацией.
Рабочий пульс индустрии, или простые но красивые статьи whats-next:

Interpretable Contrastive Monte Carlo Tree Search Reasoning
Улучшают масштабируемый ризонинг на основе RL/MCTS. Пытаются сделать его интерпретируемым (качество и осмысленность промежуточных шагов, а также всего дерева рассуждений - наверное одно из наиболее интересных направлений сейчас, к ним есть много вопросов, простор для исследования). А также более быстрым. Получается хорошо. С этой статьи можно начать погружаться в проблематику ризонинга, если вы еще не: сам подход устаканился, начались поиски улучшений.

LLaVA-o1: Let Vision Language Models Reason Step-by-Step
Масштабируемый ризонинг в приложении к vision-language моделям: визуальный ризонинг. Работает.

Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space
Новая статья по интерпретируемости: исследуется динамика формирования концептов в процессе обучения модели, главное предложен метод для этого, им теперь можно искать всякое, что происходит.

Взрыв количества стартапов, релизов и статей про world models для робототехники и других приложений, где они смогут ориентироваться в открытой виртуальной среде, идет как и предполагалось, так что фундаментальной новости собой не представляет 🙂 Несколько ссылок: Fei Fei Li World Labs, π0, обзор от TechCrunch, Google GameNGen и др.

Чуть менее громко, но тоже в большом количестве растут все более сильные автоматизированные ML-рисерчеры и бенчмарки для них, прямо битва.

Я же тем временем продолжаю изучать идею осцилляторных нейронных сетей, это еще одна формализация обучения, кроме привычных нейросетей и импульсных, которая кажется биологически реалистичнее. А некоторые серьезные парни в это время строят термодинамические чипы - опять же, еще одна модель вычислений между привычной цифровой и квантовой, предлагающая использовать естественный термодинамический шум, что дешево и cердито, и не надо эмулировать на GPU за много денег и энергии.
👍1
Google вырвался вперед и показал немного ближайшего будущего с релизом семейства моделей Gemini 2.0 и прототипов на их основе. Там и потоковый омнимодальный режим в реальном времени (видео+аудио+текст+рассуждения), и живые агенты, выполняющие ваши просьбы в браузере, и диалоговые агенты, помогающие в различных ситуациях, например, в играх. Все это в очень интерактивном режиме. Тут сжатое демо, но на странице релиза гораздо больше интересных подробностей и видео.

Зреет очередной рывок, который сделает устаревшими большинство частных моделей, созданных для решения отдельных узких задач. А неотличимые от разумных ассистенты похоже не за горами.

Также, появляется все больше опенсорс библиотек для обучения роботов, скоро школьники на питоне будут обучать домашних С-3PO.
👍1
Наиболее яркий текущий тренд, который просматривается еще с весны, это объединение всех изобретений в области генеративных, мультимодальных и action/реинфорсмент моделей в единую модель/архитектуру, которая сможет действовать как автономный агент, в реальной (роботы, транспортные средства, производство) или виртуальной (интернет, операционная система, компьютерные игры) среде. Свежий релиз гугла немного приоткрывает, как это будет выглядеть, но будет больше и ярче.

Пока не сложилось устойчивой терминологии, такие модели называют и Language-Vision-Action (LVA), и Large Behavior Models (LBM), и Generalist Embodied Agents (GEA), и Robotics Foundation Models (RFM). World Models - подмножество этого класса, имеющее чуть меньший акцент на действиях и чуть больший на предсказании (а также используемое как симуляторы среды для обучения RL-агентов).

Несколько актуальных статей, продвигающих это направление:

🥭 From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

🥭 Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey

🥭 π0: A Vision-Language-Action Flow Model for General Robot Control

🥭 Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior
1
OpenAI анонсировала следующее поколение своих ризонинг моделей (совмещающих в себе привычные LLM и поиск в пространстве вариантов генерации). Но вот этот график, который летает по сети, про то, как они побили «самый сложный бенчмарк» ARC стоит воспринимать с долей скепсиса. На нем не указано, что прогон бенчмарка на самой топовой конфигурации модели (o3 high) стоит почти полтора миллиона долларов. А сколько занимает времени - информации вообще нет. При том, что это задачи на уровне цветных квадратиков и логических правил их трансформации. То есть да, ищет, но на данный момент практически брутфорсом. Семиклассник будет сильно дешевле и, подозреваю, быстрее (даже если не решит какие-то из примеров). Также, пока не понятно, насколько эти рассуждения будут генерализируемы и переносимы на новые, не известные домены.
1
Очень хороший обзор state-of-the-art в импульсных (спайковых) сетях:
🌶 Brain-inspired computing: A systematic survey and future trends (2024).

Мотивация области, алгоритмы обучения, аппаратные реализации, тулчейн и фреймворки, датасеты и бенчмарки, приложения, проблемы и тренды. Полная версия скачивается, например, тут.
2
Проблема обобщения (генерализации) в нейросетях, на мой взгляд, остается одной из наиболее ярких и интересных нерешенных задач. Хотелось бы научиться ее оценивать, предсказывать, управлять при обучении, а главное, уметь понимать её пределы в различных моделях.

Она тесно связана с понятием гроккинга - когда сети в процессе обучения сначала запоминают все данные (и, соответственно, переобучаются на них), а потом, при продолжении тренировки, резко обобщаются. При этом падает внутренняя сложность весов, и сеть становится способна решать не только примеры, присутствовавшие в обучении, но и, условно, «похожие» на них. Если метафорами - это момент «понимания» моделью каких-то обобщенных базовых принципов, лежащих в основе данных. Существует мнение, что такое резкое разделение этих двух этапов обучения во времени - результат неверной регуляризации (часть функции потерь, штрафующая сеть за сложность собственного устройства).

Свежая статья идёт дальше:
🌶 The Complexity Dynamics of Grokking

Авторы:
- предлагают метрику для генерализации на основе оценки сложности структуры весов сети
- показывают, как эта мера сложности возрастает на этапе меморизации и резко падает в результате гроккинга
- предлагают новую регуляризацию, стимулирующую обобщение в процессе обучения.
❤‍🔥1
Подробное объяснение от Melanie Mitchell, что такое ARC, и что делает o3, и какие вопросы остаются.

А здесь список из 34 задач, которые o3 не смогла решить.

Формально условия бенчмарка не выполнены по двум критериям:
- как раз по ограничению компьюта
- он проводился на полуприватном сете, тогда как есть еще полностью приватный. Но запустить o3 на инфраструктуре, не принадлежащей OpenAI, очевидно, нельзя.

Тем не менее, Франсуа Шолле, автор, с участием OpenAI уже готовит вторую версию и планирует выпустить ее в начале 2025 (примерно на это же время назначен релиз моделей o3). Вот его подробные разъянения. Важно, что он очень трезво заявляет, что ARC не является лакмусовой бумажкой для AGI, а лишь ставит сложные задачи для текущего поколения систем. Обещает, что на новой версии (она в работе с 2022 года) скор o3 снова откатится.
🔥1
Две интересные работы от Меты:

Training Large Language Models to Reason in a Continuous Latent Space
Ризонинг в латентном пространстве. Для цепочки рассуждений используются вектора последнего скрытого слоя - они подаются снова на вход в качестве эмбеддингов, а шаг преобразования в токены и обратно устраняется. Интересно тем, что потенциально открывает намного более гибкие, широкие и эффективные возможности «размышлений», чем при использовании промежуточного представления в виде токенов, в котором теряется много информации и ограничиваются возможные ходы. В статье представлена архитектура, методы обучения и сравнение с традиционным chain-of-thought ризонингом.

Byte Latent Transformer: Patches Scale Better Than Tokens
Многочисленные проблемы, вызываемые токенизацией (плохая переносимость между разными языками, затрудненное понимание состава слов, часто статистически неоправданные разбиения, необходимость специальных механизмов в отдельных доменах вроде чисел, непереносимость между моделями, необходимость пред- и пост-обработки текста и тд) предлагают решить, заменив одновременно BPE токенизатор на входе и softmax слой на выходе на два небольших трансформера. Которые учатся организовывать поток символов в «патчи» (аналог токенов) по мере неопределенности следующего символа, то есть предсказывая статистически существующие фрагменты с большей связностью/определенностью, а значит, кроме прочего, имеющие более явные семантические роли.
🔥3
Знаете ли вы, что LLaMA 3.2 на 1 миллиард параметров сравнивается по метрикам с LLaMA 2 на 13 миллиардов на lmsys арене? (один из ключевых, хотя и не бесспорных бенчмарков, где ответы моделей оценивают живые люди). А что Qwen 2.5 на 3 миллиарда параметров бьет по MMLU модель LLaMA на 33 миллиарда? При сравнимых показателях на бенчмарках за последний год (от 2023 к 2024) размер моделей уменьшился в ~10 раз.

Ключевые нововведения, позволившие это сделать:
- Сложные синтетические датасеты, причем на всех этапах обучения, LLM-ки теперь и фильтруют претрейны и создают инструкции для файнтюнинга и сами себя оценивают
- Более продолжительное обучение, прежде модели учили примерно на 1T токенов, теперь это не редко 10-15T токенов
- Дистилляция из более крупных моделей в более мелкие

Стоимость инференса падает сравнимыми темпами. За деталями, ссылками на модели, статьи и техники, можно обратиться к этому посту или видео от команды HuggingFace.
❤‍🔥2👍1
2025/10/18 16:34:24
Back to Top
HTML Embed Code: