This media is not supported in your browser
VIEW IN TELEGRAM
Очень смешно :) (стартап Ильи Суцкевера SSI получил миллиардный сид раунд)
Прошел летнюю школу университета Ольстера (Ирландия) по вычислительной нейронауке: Computational Neuroscience, Neurotechnology and Neuro-inspired AI Summer School. Было интенсивно и классно. Обзор физиологии, нейрональная динамика, алгоритмы обучения, непрерывное обучение, спайковые сети, интерфейсы мозг-компьютер, нейроробототехника, нейрореабилитация, обработка сигналов и не только. Теперь у меня, как у всякого шарлатана, есть сертификат :) Боги храните интернет.
🔥4
Эппл выпустила новый оптимизатор, который улучшает сходимость моделей почти в 2 раза относительно текущего практически стандартного AdamW, а кроме того снижает катастрофическое забывание. Вот что делает пристальный взгляд в одну точку :) сейчас народ проверит, насколько широко это работает.
https://arxiv.org/abs/2409.03137
https://arxiv.org/abs/2409.03137
arXiv.org
The AdEMAMix Optimizer: Better, Faster, Older
Momentum based optimizers are central to a wide range of machine learning applications. These typically rely on an Exponential Moving Average (EMA) of gradients, which decays exponentially the...
🔥2👍1
Forwarded from ФПМИ.Студентам
🧠 «НЕЙРОИНФОРМАТИКА» – многоплановый научный форум, на котором обсуждаются вопросы теории и приложений искусственных нейронных сетей, проблемы нейробиологии и системной биофизики, задачи адаптивного поведения и когнитивных исследований и другие актуальные проблемы нейронаук.
⚡ Не упустите шанс стать частью масштабного события в области нейронаук!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Pavel Lebedev
https://arxiv.org/abs/2410.07095
OpenAI выпустил бенчмарк для агентов решающих каггл-соревы, и много всего потестировал: как справляются разные модели, разные агентные фреймворки, как их лучше масштабировать, как справляться с контаминацией.
OpenAI выпустил бенчмарк для агентов решающих каггл-соревы, и много всего потестировал: как справляются разные модели, разные агентные фреймворки, как их лучше масштабировать, как справляться с контаминацией.
arXiv.org
MLE-bench: Evaluating Machine Learning Agents on Machine Learning...
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a...
Рабочий пульс индустрии, или простые но красивые статьи whats-next:
Interpretable Contrastive Monte Carlo Tree Search Reasoning
Улучшают масштабируемый ризонинг на основе RL/MCTS. Пытаются сделать его интерпретируемым (качество и осмысленность промежуточных шагов, а также всего дерева рассуждений - наверное одно из наиболее интересных направлений сейчас, к ним есть много вопросов, простор для исследования). А также более быстрым. Получается хорошо. С этой статьи можно начать погружаться в проблематику ризонинга, если вы еще не: сам подход устаканился, начались поиски улучшений.
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
Масштабируемый ризонинг в приложении к vision-language моделям: визуальный ризонинг. Работает.
Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space
Новая статья по интерпретируемости: исследуется динамика формирования концептов в процессе обучения модели, главное предложен метод для этого, им теперь можно искать всякое, что происходит.
Взрыв количества стартапов, релизов и статей про world models для робототехники и других приложений, где они смогут ориентироваться в открытой виртуальной среде, идет как и предполагалось, так что фундаментальной новости собой не представляет 🙂 Несколько ссылок: Fei Fei Li World Labs, π0, обзор от TechCrunch, Google GameNGen и др.
Чуть менее громко, но тоже в большом количестве растут все более сильные автоматизированные ML-рисерчеры и бенчмарки для них, прямо битва.
Я же тем временем продолжаю изучать идею осцилляторных нейронных сетей, это еще одна формализация обучения, кроме привычных нейросетей и импульсных, которая кажется биологически реалистичнее. А некоторые серьезные парни в это время строят термодинамические чипы - опять же, еще одна модель вычислений между привычной цифровой и квантовой, предлагающая использовать естественный термодинамический шум, что дешево и cердито, и не надо эмулировать на GPU за много денег и энергии.
Interpretable Contrastive Monte Carlo Tree Search Reasoning
Улучшают масштабируемый ризонинг на основе RL/MCTS. Пытаются сделать его интерпретируемым (качество и осмысленность промежуточных шагов, а также всего дерева рассуждений - наверное одно из наиболее интересных направлений сейчас, к ним есть много вопросов, простор для исследования). А также более быстрым. Получается хорошо. С этой статьи можно начать погружаться в проблематику ризонинга, если вы еще не: сам подход устаканился, начались поиски улучшений.
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
Масштабируемый ризонинг в приложении к vision-language моделям: визуальный ризонинг. Работает.
Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space
Новая статья по интерпретируемости: исследуется динамика формирования концептов в процессе обучения модели, главное предложен метод для этого, им теперь можно искать всякое, что происходит.
Взрыв количества стартапов, релизов и статей про world models для робототехники и других приложений, где они смогут ориентироваться в открытой виртуальной среде, идет как и предполагалось, так что фундаментальной новости собой не представляет 🙂 Несколько ссылок: Fei Fei Li World Labs, π0, обзор от TechCrunch, Google GameNGen и др.
Чуть менее громко, но тоже в большом количестве растут все более сильные автоматизированные ML-рисерчеры и бенчмарки для них, прямо битва.
Я же тем временем продолжаю изучать идею осцилляторных нейронных сетей, это еще одна формализация обучения, кроме привычных нейросетей и импульсных, которая кажется биологически реалистичнее. А некоторые серьезные парни в это время строят термодинамические чипы - опять же, еще одна модель вычислений между привычной цифровой и квантовой, предлагающая использовать естественный термодинамический шум, что дешево и cердито, и не надо эмулировать на GPU за много денег и энергии.
👍1
Google вырвался вперед и показал немного ближайшего будущего с релизом семейства моделей Gemini 2.0 и прототипов на их основе. Там и потоковый омнимодальный режим в реальном времени (видео+аудио+текст+рассуждения), и живые агенты, выполняющие ваши просьбы в браузере, и диалоговые агенты, помогающие в различных ситуациях, например, в играх. Все это в очень интерактивном режиме. Тут сжатое демо, но на странице релиза гораздо больше интересных подробностей и видео.
Зреет очередной рывок, который сделает устаревшими большинство частных моделей, созданных для решения отдельных узких задач. А неотличимые от разумных ассистенты похоже не за горами.
Также, появляется все больше опенсорс библиотек для обучения роботов, скоро школьники на питоне будут обучать домашних С-3PO.
Зреет очередной рывок, который сделает устаревшими большинство частных моделей, созданных для решения отдельных узких задач. А неотличимые от разумных ассистенты похоже не за горами.
Также, появляется все больше опенсорс библиотек для обучения роботов, скоро школьники на питоне будут обучать домашних С-3PO.
👍1
Наиболее яркий текущий тренд, который просматривается еще с весны, это объединение всех изобретений в области генеративных, мультимодальных и action/реинфорсмент моделей в единую модель/архитектуру, которая сможет действовать как автономный агент, в реальной (роботы, транспортные средства, производство) или виртуальной (интернет, операционная система, компьютерные игры) среде. Свежий релиз гугла немного приоткрывает, как это будет выглядеть, но будет больше и ярче.
Пока не сложилось устойчивой терминологии, такие модели называют и Language-Vision-Action (LVA), и Large Behavior Models (LBM), и Generalist Embodied Agents (GEA), и Robotics Foundation Models (RFM). World Models - подмножество этого класса, имеющее чуть меньший акцент на действиях и чуть больший на предсказании (а также используемое как симуляторы среды для обучения RL-агентов).
Несколько актуальных статей, продвигающих это направление:
🥭 From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
🥭 Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey
🥭 π0: A Vision-Language-Action Flow Model for General Robot Control
🥭 Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior
Пока не сложилось устойчивой терминологии, такие модели называют и Language-Vision-Action (LVA), и Large Behavior Models (LBM), и Generalist Embodied Agents (GEA), и Robotics Foundation Models (RFM). World Models - подмножество этого класса, имеющее чуть меньший акцент на действиях и чуть больший на предсказании (а также используемое как симуляторы среды для обучения RL-агентов).
Несколько актуальных статей, продвигающих это направление:
🥭 From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
🥭 Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey
🥭 π0: A Vision-Language-Action Flow Model for General Robot Control
🥭 Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior
❤1
OpenAI анонсировала следующее поколение своих ризонинг моделей (совмещающих в себе привычные LLM и поиск в пространстве вариантов генерации). Но вот этот график, который летает по сети, про то, как они побили «самый сложный бенчмарк» ARC стоит воспринимать с долей скепсиса. На нем не указано, что прогон бенчмарка на самой топовой конфигурации модели (o3 high) стоит почти полтора миллиона долларов. А сколько занимает времени - информации вообще нет. При том, что это задачи на уровне цветных квадратиков и логических правил их трансформации. То есть да, ищет, но на данный момент практически брутфорсом. Семиклассник будет сильно дешевле и, подозреваю, быстрее (даже если не решит какие-то из примеров). Также, пока не понятно, насколько эти рассуждения будут генерализируемы и переносимы на новые, не известные домены.
❤1
Очень хороший обзор state-of-the-art в импульсных (спайковых) сетях:
🌶 Brain-inspired computing: A systematic survey and future trends (2024).
Мотивация области, алгоритмы обучения, аппаратные реализации, тулчейн и фреймворки, датасеты и бенчмарки, приложения, проблемы и тренды. Полная версия скачивается, например, тут.
🌶 Brain-inspired computing: A systematic survey and future trends (2024).
Мотивация области, алгоритмы обучения, аппаратные реализации, тулчейн и фреймворки, датасеты и бенчмарки, приложения, проблемы и тренды. Полная версия скачивается, например, тут.
❤2
Проблема обобщения (генерализации) в нейросетях, на мой взгляд, остается одной из наиболее ярких и интересных нерешенных задач. Хотелось бы научиться ее оценивать, предсказывать, управлять при обучении, а главное, уметь понимать её пределы в различных моделях.
Она тесно связана с понятием гроккинга - когда сети в процессе обучения сначала запоминают все данные (и, соответственно, переобучаются на них), а потом, при продолжении тренировки, резко обобщаются. При этом падает внутренняя сложность весов, и сеть становится способна решать не только примеры, присутствовавшие в обучении, но и, условно, «похожие» на них. Если метафорами - это момент «понимания» моделью каких-то обобщенных базовых принципов, лежащих в основе данных. Существует мнение, что такое резкое разделение этих двух этапов обучения во времени - результат неверной регуляризации (часть функции потерь, штрафующая сеть за сложность собственного устройства).
Свежая статья идёт дальше:
🌶 The Complexity Dynamics of Grokking
Авторы:
- предлагают метрику для генерализации на основе оценки сложности структуры весов сети
- показывают, как эта мера сложности возрастает на этапе меморизации и резко падает в результате гроккинга
- предлагают новую регуляризацию, стимулирующую обобщение в процессе обучения.
Она тесно связана с понятием гроккинга - когда сети в процессе обучения сначала запоминают все данные (и, соответственно, переобучаются на них), а потом, при продолжении тренировки, резко обобщаются. При этом падает внутренняя сложность весов, и сеть становится способна решать не только примеры, присутствовавшие в обучении, но и, условно, «похожие» на них. Если метафорами - это момент «понимания» моделью каких-то обобщенных базовых принципов, лежащих в основе данных. Существует мнение, что такое резкое разделение этих двух этапов обучения во времени - результат неверной регуляризации (часть функции потерь, штрафующая сеть за сложность собственного устройства).
Свежая статья идёт дальше:
🌶 The Complexity Dynamics of Grokking
Авторы:
- предлагают метрику для генерализации на основе оценки сложности структуры весов сети
- показывают, как эта мера сложности возрастает на этапе меморизации и резко падает в результате гроккинга
- предлагают новую регуляризацию, стимулирующую обобщение в процессе обучения.
❤🔥1
Подробное объяснение от Melanie Mitchell, что такое ARC, и что делает o3, и какие вопросы остаются.
А здесь список из 34 задач, которые o3 не смогла решить.
Формально условия бенчмарка не выполнены по двум критериям:
- как раз по ограничению компьюта
- он проводился на полуприватном сете, тогда как есть еще полностью приватный. Но запустить o3 на инфраструктуре, не принадлежащей OpenAI, очевидно, нельзя.
Тем не менее, Франсуа Шолле, автор, с участием OpenAI уже готовит вторую версию и планирует выпустить ее в начале 2025 (примерно на это же время назначен релиз моделей o3). Вот его подробные разъянения. Важно, что он очень трезво заявляет, что ARC не является лакмусовой бумажкой для AGI, а лишь ставит сложные задачи для текущего поколения систем. Обещает, что на новой версии (она в работе с 2022 года) скор o3 снова откатится.
А здесь список из 34 задач, которые o3 не смогла решить.
Формально условия бенчмарка не выполнены по двум критериям:
- как раз по ограничению компьюта
- он проводился на полуприватном сете, тогда как есть еще полностью приватный. Но запустить o3 на инфраструктуре, не принадлежащей OpenAI, очевидно, нельзя.
Тем не менее, Франсуа Шолле, автор, с участием OpenAI уже готовит вторую версию и планирует выпустить ее в начале 2025 (примерно на это же время назначен релиз моделей o3). Вот его подробные разъянения. Важно, что он очень трезво заявляет, что ARC не является лакмусовой бумажкой для AGI, а лишь ставит сложные задачи для текущего поколения систем. Обещает, что на новой версии (она в работе с 2022 года) скор o3 снова откатится.
🔥1
Две интересные работы от Меты:
Training Large Language Models to Reason in a Continuous Latent Space
Ризонинг в латентном пространстве. Для цепочки рассуждений используются вектора последнего скрытого слоя - они подаются снова на вход в качестве эмбеддингов, а шаг преобразования в токены и обратно устраняется. Интересно тем, что потенциально открывает намного более гибкие, широкие и эффективные возможности «размышлений», чем при использовании промежуточного представления в виде токенов, в котором теряется много информации и ограничиваются возможные ходы. В статье представлена архитектура, методы обучения и сравнение с традиционным chain-of-thought ризонингом.
Byte Latent Transformer: Patches Scale Better Than Tokens
Многочисленные проблемы, вызываемые токенизацией (плохая переносимость между разными языками, затрудненное понимание состава слов, часто статистически неоправданные разбиения, необходимость специальных механизмов в отдельных доменах вроде чисел, непереносимость между моделями, необходимость пред- и пост-обработки текста и тд) предлагают решить, заменив одновременно BPE токенизатор на входе и softmax слой на выходе на два небольших трансформера. Которые учатся организовывать поток символов в «патчи» (аналог токенов) по мере неопределенности следующего символа, то есть предсказывая статистически существующие фрагменты с большей связностью/определенностью, а значит, кроме прочего, имеющие более явные семантические роли.
Training Large Language Models to Reason in a Continuous Latent Space
Ризонинг в латентном пространстве. Для цепочки рассуждений используются вектора последнего скрытого слоя - они подаются снова на вход в качестве эмбеддингов, а шаг преобразования в токены и обратно устраняется. Интересно тем, что потенциально открывает намного более гибкие, широкие и эффективные возможности «размышлений», чем при использовании промежуточного представления в виде токенов, в котором теряется много информации и ограничиваются возможные ходы. В статье представлена архитектура, методы обучения и сравнение с традиционным chain-of-thought ризонингом.
Byte Latent Transformer: Patches Scale Better Than Tokens
Многочисленные проблемы, вызываемые токенизацией (плохая переносимость между разными языками, затрудненное понимание состава слов, часто статистически неоправданные разбиения, необходимость специальных механизмов в отдельных доменах вроде чисел, непереносимость между моделями, необходимость пред- и пост-обработки текста и тд) предлагают решить, заменив одновременно BPE токенизатор на входе и softmax слой на выходе на два небольших трансформера. Которые учатся организовывать поток символов в «патчи» (аналог токенов) по мере неопределенности следующего символа, то есть предсказывая статистически существующие фрагменты с большей связностью/определенностью, а значит, кроме прочего, имеющие более явные семантические роли.
🔥3
Знаете ли вы, что LLaMA 3.2 на 1 миллиард параметров сравнивается по метрикам с LLaMA 2 на 13 миллиардов на lmsys арене? (один из ключевых, хотя и не бесспорных бенчмарков, где ответы моделей оценивают живые люди). А что Qwen 2.5 на 3 миллиарда параметров бьет по MMLU модель LLaMA на 33 миллиарда? При сравнимых показателях на бенчмарках за последний год (от 2023 к 2024) размер моделей уменьшился в ~10 раз.
Ключевые нововведения, позволившие это сделать:
- Сложные синтетические датасеты, причем на всех этапах обучения, LLM-ки теперь и фильтруют претрейны и создают инструкции для файнтюнинга и сами себя оценивают
- Более продолжительное обучение, прежде модели учили примерно на 1T токенов, теперь это не редко 10-15T токенов
- Дистилляция из более крупных моделей в более мелкие
Стоимость инференса падает сравнимыми темпами. За деталями, ссылками на модели, статьи и техники, можно обратиться к этому посту или видео от команды HuggingFace.
Ключевые нововведения, позволившие это сделать:
- Сложные синтетические датасеты, причем на всех этапах обучения, LLM-ки теперь и фильтруют претрейны и создают инструкции для файнтюнинга и сами себя оценивают
- Более продолжительное обучение, прежде модели учили примерно на 1T токенов, теперь это не редко 10-15T токенов
- Дистилляция из более крупных моделей в более мелкие
Стоимость инференса падает сравнимыми темпами. За деталями, ссылками на модели, статьи и техники, можно обратиться к этому посту или видео от команды HuggingFace.
❤🔥2👍1