Forwarded from Ppprompt | Sexy AI Prompts & Experiments | by @ponchiknews
This media is not supported in your browser
VIEW IN TELEGRAM
К демке GPT-4o от OpenAI приделали AI-аватар молодой женщины в красном (сделано в Synthesia.ai - они генерируют аватары для видосов)
и получилось…
Даже не знаю как это назвать. Ваши варианты, к чему это всё приведёт?
@ppprompt
и получилось…
Даже не знаю как это назвать. Ваши варианты, к чему это всё приведёт?
@ppprompt
The Platonic Representation Hypothesis
Авторы статьи утверждают, что сетки, тренируемые на разных модальностях, разных задачах и разных данных, с ростом объема/универсальности имеют тенденцию сходиться к одной или близкой модели реальности в своих внутренних представлениях. Прекрасно всё, от идеи, до отсылки к Платоновским Эйдосам и Телам, до глубины следствий.
🦑 статья
🐳 сайт
Авторы статьи утверждают, что сетки, тренируемые на разных модальностях, разных задачах и разных данных, с ростом объема/универсальности имеют тенденцию сходиться к одной или близкой модели реальности в своих внутренних представлениях. Прекрасно всё, от идеи, до отсылки к Платоновским Эйдосам и Телам, до глубины следствий.
🦑 статья
🐳 сайт
Будем иногда заходить в digital humanities, deep learning 4 science и discovery automation.
В частности, методы снижения размерности и визуализации, приведенные выше, очень полезны для выявления закономерностей в крупных наборах данных. Например, я использовал их для кластеризации и построения карты мировой мифологии на основе базы данных, собранной Юрием Евгеньевичем Березкиным: https://youtube.com/watch?v=GL7WyFra20U
История с символической регрессией (вывод формул из данных) и фундаментальными моделями для физики парой постов выше, а также многие упомянутые модели от DeepMind, тоже относятся к этой теме.
А теперь - как многоагентное моделирование помогает в археологии. https://santafeinstitute.github.io/ABMA/
В частности, методы снижения размерности и визуализации, приведенные выше, очень полезны для выявления закономерностей в крупных наборах данных. Например, я использовал их для кластеризации и построения карты мировой мифологии на основе базы данных, собранной Юрием Евгеньевичем Березкиным: https://youtube.com/watch?v=GL7WyFra20U
История с символической регрессией (вывод формул из данных) и фундаментальными моделями для физики парой постов выше, а также многие упомянутые модели от DeepMind, тоже относятся к этой теме.
А теперь - как многоагентное моделирование помогает в археологии. https://santafeinstitute.github.io/ABMA/
Генерализация тесно связана с гроккингом - структурной перестройкой весов по достижении некоторого критического порога, которая приводит к обобщениям. И порог этот обычно сильно дальше того момента, когда модель просто запомнила все примеры. Мы уже касались этого, когда упоминали Нила Нанду и его исследования по интерпретируемости.
В свежей статье, Grokked Transformers are Implicit Reasoners:
A Mechanistic Journey to the Edge of Generalization делают следующее:
- показывают, что гроккинг зависит от соотношения в обучающих данных атомарных примеров и примеров, демонстрирующих обобщение, и не зависит от количества этих данных после какого-то минимально разумного порога;
- выделяют два вида обобщения: композицию (все люди смертны, Сократ - человек, Сократ - смертен) и сравнение (Машин рост 182 см, Колин рост 176 см, кто выше?), и показывают, что правильно организованный датасет и обучение до гроккинга стабильно позволяет модели делать сравнения. Но никак не помогает ей делать композиции;
- изучают механизмы гроккинга с помощью нескольких инструментов интерпретации работы моделей и показывают, что именно в архитектуре трансформера блокирует композиционное обобщение (отсутствие разделения памяти между слоями). Ссылаются на несколько модификаций архитектуры, которые могли бы это решить;
- сетапят для сравнения gpt4-turbo и gemini 1.5 pro и свой дообученный трансформер на сложной многоходовой задаче (а ля knowledge graph reasoning). Обе фронтир модели показывают 11-30%, а их трансформер - 99%;
- обозначают разницу между непараметрической памятью (длинный контекст, rag) и параметрической (веса модели), и показывают что нужны обе, а в каком соотношении - открытый вопрос.
Просится следующая работа: взять упомянутые авторами архитектуры с разделением весов между слоями, может предложить еще какие-то с учетом понимания, зачем это нужно, и обучить их на взвешенных по рецепту этой работы датасетах, в которые включить все формы силлогизмов (они изучены еще в средние века). И замерять композиционное обобщение, способность к ризонингу id & ood.
В свежей статье, Grokked Transformers are Implicit Reasoners:
A Mechanistic Journey to the Edge of Generalization делают следующее:
- показывают, что гроккинг зависит от соотношения в обучающих данных атомарных примеров и примеров, демонстрирующих обобщение, и не зависит от количества этих данных после какого-то минимально разумного порога;
- выделяют два вида обобщения: композицию (все люди смертны, Сократ - человек, Сократ - смертен) и сравнение (Машин рост 182 см, Колин рост 176 см, кто выше?), и показывают, что правильно организованный датасет и обучение до гроккинга стабильно позволяет модели делать сравнения. Но никак не помогает ей делать композиции;
- изучают механизмы гроккинга с помощью нескольких инструментов интерпретации работы моделей и показывают, что именно в архитектуре трансформера блокирует композиционное обобщение (отсутствие разделения памяти между слоями). Ссылаются на несколько модификаций архитектуры, которые могли бы это решить;
- сетапят для сравнения gpt4-turbo и gemini 1.5 pro и свой дообученный трансформер на сложной многоходовой задаче (а ля knowledge graph reasoning). Обе фронтир модели показывают 11-30%, а их трансформер - 99%;
- обозначают разницу между непараметрической памятью (длинный контекст, rag) и параметрической (веса модели), и показывают что нужны обе, а в каком соотношении - открытый вопрос.
Просится следующая работа: взять упомянутые авторами архитектуры с разделением весов между слоями, может предложить еще какие-то с учетом понимания, зачем это нужно, и обучить их на взвешенных по рецепту этой работы датасетах, в которые включить все формы силлогизмов (они изучены еще в средние века). И замерять композиционное обобщение, способность к ризонингу id & ood.
🔥1
A Primer on the Inner Workings of Transformer-based Language Models
Свежий обзор, обобщающий все последние годы исследований по интерпретируемости языковых трансформеров: какие компоненты трансформера вносят вклад в те или иные ответы, какие техники и приемы анализа внутренностей сеток придумали и используют, какие поведения и алгоритмы внутри моделей с их помощью обнаружили, какие библиотеки и инструменты визуализации внутренностей моделей существуют. Сказка на ночь.
Свежий обзор, обобщающий все последние годы исследований по интерпретируемости языковых трансформеров: какие компоненты трансформера вносят вклад в те или иные ответы, какие техники и приемы анализа внутренностей сеток придумали и используют, какие поведения и алгоритмы внутри моделей с их помощью обнаружили, какие библиотеки и инструменты визуализации внутренностей моделей существуют. Сказка на ночь.
👍1
Больше двухсот актуальных теорий сознания из самых разных сфер человеческой деятельности. Подробнее в этом обзоре: A landscape of consciousness: Toward a taxonomy of explanations and implications. Тема интересна тем, что находится на границе нашей способности к моделированию. Очень мало кто способен об этом трезво рассуждать, хоть в философском сообществе, хоть в сообществе нейронаук, хоть в сообществе искуственного интеллекта.
👍3
Идея файнтюнить модели на силлогизмах получает множество подтверждений. Во-первых, снова всплыл Q* - мифический алгоритм для ризонинга от OpenAI. Теперь он называется Strawberry, хотя не известно, насколько сильно он с тех пор изменился. В прошлый раз стало известно, что он основан на идеях Q-learning и A* для поиска пути (общественность предлагала вот такого кандидата на его место), теперь в качестве дополнительного референса приводится Стенфордская статья 2022-го года STaR: Bootstrapping Reasoning With Reasoning. Идея которой состоит в том, чтобы на основе вопросно-ответных датасетов генерировать синтетические данные для дообучения, включающие в себя процесс рассуждений, который привел к верному ответу. Дальше модель доучивается на полученных данных и процесс повторяется сначала. Таким образом они смогли сравняться по перфомансу с моделью в 30 раз большей, не проходившей такую процедуру. Вот еще свежий пример такого подхода: Distilling System 2 into System 1. Они берут разные алгоритмы последовательного приближения ответов (пошаговых рассуждений), генерируют на их основе синтетические данные и доучивают на них модель. Получают ощутимый буст на бенчмарках.
Одновременно, представители OpenAI один за другим заявляют, что системы следующего поколения будут “достигать уровня PhD” по отдельным направлениям. Кстати, соответствующие бенчмарки уже появились, см. GPQA, и он уже включен в обновленный лидерборд хаггинфейса. Или MMSci.
На днях OpenAI также опубликовала свое видение роадмапа AI
(см. Bloomberg с пейволом или Medium c деталями):
Level 1: Chatbots, Al with conversational language (текущее поколение моделей)
Level 2: Reasoners, human-level problem solving (Strawberry и аналоги)
Level 3: Agents, systems that can take actions (OpenAI также уже анонсировала CUA - агента, способного выполнять в интернете задачи, требующие длинных последовательностей действий)
Level 4: Innovators, Al that can aid in invention
Level 5: Organizations, Al that can do the work of an organization (популярная тема многоагентности, “а представьте они толпой побежали”, и у каждого своя роль/профессия и систем промпт. в частности, об этом много и хорошо рассказывает Эндрю Ын, например, в этой серии постов или в этом видео)
Сравните с аналогичным роадмэпом от DeepMind.
Тем временем, выходят windows-ноутбуки на Qualcomm SnapDragon X Elite - RISC-процессорах c нейронным ядрами на чипе, наличие которых теперь - официально минимальные системные требования для запуска следующих версий Windows. Apple готовит к выпуску M4 - следующее поколение своих процессоров на новом 3nm техпроцессе (тоже конечно с нейронными ядрами), и во всю расцветает Edge AI (оптимизации и движки инференса для запуска LLM/DL-моделей на телефонах и прочих чайниках). То есть значительная часть всего этого буйства будет работать локально на личных устройствах.
Одновременно, представители OpenAI один за другим заявляют, что системы следующего поколения будут “достигать уровня PhD” по отдельным направлениям. Кстати, соответствующие бенчмарки уже появились, см. GPQA, и он уже включен в обновленный лидерборд хаггинфейса. Или MMSci.
На днях OpenAI также опубликовала свое видение роадмапа AI
(см. Bloomberg с пейволом или Medium c деталями):
Level 1: Chatbots, Al with conversational language (текущее поколение моделей)
Level 2: Reasoners, human-level problem solving (Strawberry и аналоги)
Level 3: Agents, systems that can take actions (OpenAI также уже анонсировала CUA - агента, способного выполнять в интернете задачи, требующие длинных последовательностей действий)
Level 4: Innovators, Al that can aid in invention
Level 5: Organizations, Al that can do the work of an organization (популярная тема многоагентности, “а представьте они толпой побежали”, и у каждого своя роль/профессия и систем промпт. в частности, об этом много и хорошо рассказывает Эндрю Ын, например, в этой серии постов или в этом видео)
Сравните с аналогичным роадмэпом от DeepMind.
Тем временем, выходят windows-ноутбуки на Qualcomm SnapDragon X Elite - RISC-процессорах c нейронным ядрами на чипе, наличие которых теперь - официально минимальные системные требования для запуска следующих версий Windows. Apple готовит к выпуску M4 - следующее поколение своих процессоров на новом 3nm техпроцессе (тоже конечно с нейронными ядрами), и во всю расцветает Edge AI (оптимизации и движки инференса для запуска LLM/DL-моделей на телефонах и прочих чайниках). То есть значительная часть всего этого буйства будет работать локально на личных устройствах.
Одно из принципиальных ограничений текущих архитектур ANN (artificial neural networks) - то что алгоритм расчета глобален, всегда работает только полными слоями целиком, и на этом построено все текущее аппаратное ускорение, так что от этого принципа не так просто будет отказаться. При том что известно, что для обработки каждого отдельного запроса в действительности нужна только очень небольшая часть сети (хотя и не всегда ясно, какая). Отсюда разные варианты прунингов (обрезания части весов), спарсити (разреженности), MoE (mixture of experts) и тп.
Поэтому попытки сделать ANN асинхронными, то есть способными активизировать только нужную для текущей задачи часть, локально (а в идеале и с локальными правилами обучения), а не всю сеть целиком - одно из перспективных в ближайшем будущем направлений. Оно способно на порядки увеличить скорость инференса и сократить расходы энергии. А кроме того дает много интересных следствий в обучаемости. Например, в области continual learning и борьбы с катастрофическим забыванием.
До сих пор это свойство, асинхронность и локальность обучения, преподносилось как ключевое преимущество SNN - spiking neural networks, где вычисления идут не за счет перемножения матриц, а за счет локальных импульсов, что ближе к тому, как работает нервная система и мозг. И эти архитектуры уже способны решать многие задачи, которые под силу более распространенным ANN, хотя и с чуть меньшим качеством. Пока они еще выглядят как нишевое решение для Edge AI, датчиков, и прочей скоростной электроники. Например, дроны на них уже летают.
Еще одно их интересное свойство - возможность аппаратной реализации, устраняющей bottleneck классической архитектуры фон Неймана, на которой сейчас работают все вычислительные устройства. То есть реализация вычислений inplace, прямо в памяти, без необходимости все время гонять данные по узкой шине между памятью и центральным процессором. Это также очень желанная цель, которая при достижении тоже даст буст на порядки. И такие чипы находятся в разработке (т.н. “нейроморфные архитектуры”). Так что вполне возможно, эта ветка исследований еще выстрелит, у неё все шансы.
Тем временем, это же направление но под другим углом атакуют классические ANN: статья DeepMind Mixture of A Million Experts от 4 июля. В статье исследуется архитектура, состоящая не из нескольких экспертов, а из миллиона. И показываются многие названные выше свойства.
Кроме прочего, такая организация очень напоминает организацию коры головного мозга с ее колонками. Это направление вычислительного моделирования активно исследует Jeff Hawkins с его Thousand Brains Theory.
Поэтому попытки сделать ANN асинхронными, то есть способными активизировать только нужную для текущей задачи часть, локально (а в идеале и с локальными правилами обучения), а не всю сеть целиком - одно из перспективных в ближайшем будущем направлений. Оно способно на порядки увеличить скорость инференса и сократить расходы энергии. А кроме того дает много интересных следствий в обучаемости. Например, в области continual learning и борьбы с катастрофическим забыванием.
До сих пор это свойство, асинхронность и локальность обучения, преподносилось как ключевое преимущество SNN - spiking neural networks, где вычисления идут не за счет перемножения матриц, а за счет локальных импульсов, что ближе к тому, как работает нервная система и мозг. И эти архитектуры уже способны решать многие задачи, которые под силу более распространенным ANN, хотя и с чуть меньшим качеством. Пока они еще выглядят как нишевое решение для Edge AI, датчиков, и прочей скоростной электроники. Например, дроны на них уже летают.
Еще одно их интересное свойство - возможность аппаратной реализации, устраняющей bottleneck классической архитектуры фон Неймана, на которой сейчас работают все вычислительные устройства. То есть реализация вычислений inplace, прямо в памяти, без необходимости все время гонять данные по узкой шине между памятью и центральным процессором. Это также очень желанная цель, которая при достижении тоже даст буст на порядки. И такие чипы находятся в разработке (т.н. “нейроморфные архитектуры”). Так что вполне возможно, эта ветка исследований еще выстрелит, у неё все шансы.
Тем временем, это же направление но под другим углом атакуют классические ANN: статья DeepMind Mixture of A Million Experts от 4 июля. В статье исследуется архитектура, состоящая не из нескольких экспертов, а из миллиона. И показываются многие названные выше свойства.
Кроме прочего, такая организация очень напоминает организацию коры головного мозга с ее колонками. Это направление вычислительного моделирования активно исследует Jeff Hawkins с его Thousand Brains Theory.
❤2
Небольшая подборка книг по нейрофизиологии. Принцип отбора - как можно более кратко, как можно более фундаментально, и с как можно более широким охватом.
1. The Brain from Inside Out, Gyorgy Buzsaki. Oxford University Press, 2019.
Пожалуй, лучшая (лучше я не встречал, а все что встречал - сильно отстает) вводная книга по systems neuroscience - то есть как вообще мозг работает в целом. Автор сочетает прекрасный точный философский анализ (который к месту, служит задаче, и не улетает в спекуляции. подобное и в философской литературе редко встретишь), широкую осведомленность в разных областях, и десятки лет практического опыта в исследованиях мозга. Читать не просто, но приятно, без скидок. Дает много новых точек зрения. 360 стр.
2. Principles of Neural Science, 6th ed., Eric R. Kandel et al. McGraw Hill, 2021.
Классический, наиболее авторитетный учебник, используемый ВУЗами по всему миру, с первого издания которого прошло уже более 40 лет. Регулярно обновляется, последнее, 6-ое издание вышло в 2021 году. Содержит максимально широкие сведения от биохимии синапсов до поведения, считай, энциклопедия: около 1600 страниц и 2200 иллюстраций. Такую книгу можно иметь на столе или на полке и читать долго.
3. Brain Architecture: Understanding the Basic Plan, 2nd ed., Larry W. Swanson. Oxford University Press, 2012.
Не трудная, обзорная книга по структуре нервной системы и головного мозга: из каких частей состоит, как эволюционировал, как развивается из эмбриона, как взаимодействуют основные части. Основного текста меньше 300 стр.
4. A Brief History of Intelligence, Max Bennett. Mariner Books, 2023.
В книге рассматривается появление и эволюция мозга с точки зрения его функций и структуры. Выделяются пять фундаментальных стадий этой эволюции, на которых появлялись новые подсистемы, и они соотносятся с направлениями в AI. Своего рода, карта от AI к AGI, по крайней мере одна из возможных. 400+ страниц. Если вас не хватает на целую книгу, можно основные идеи прочитать в статьях автора, здесь и здесь.
Электронные версии всех книг можно найти в сети.
#основания
1. The Brain from Inside Out, Gyorgy Buzsaki. Oxford University Press, 2019.
Пожалуй, лучшая (лучше я не встречал, а все что встречал - сильно отстает) вводная книга по systems neuroscience - то есть как вообще мозг работает в целом. Автор сочетает прекрасный точный философский анализ (который к месту, служит задаче, и не улетает в спекуляции. подобное и в философской литературе редко встретишь), широкую осведомленность в разных областях, и десятки лет практического опыта в исследованиях мозга. Читать не просто, но приятно, без скидок. Дает много новых точек зрения. 360 стр.
2. Principles of Neural Science, 6th ed., Eric R. Kandel et al. McGraw Hill, 2021.
Классический, наиболее авторитетный учебник, используемый ВУЗами по всему миру, с первого издания которого прошло уже более 40 лет. Регулярно обновляется, последнее, 6-ое издание вышло в 2021 году. Содержит максимально широкие сведения от биохимии синапсов до поведения, считай, энциклопедия: около 1600 страниц и 2200 иллюстраций. Такую книгу можно иметь на столе или на полке и читать долго.
3. Brain Architecture: Understanding the Basic Plan, 2nd ed., Larry W. Swanson. Oxford University Press, 2012.
Не трудная, обзорная книга по структуре нервной системы и головного мозга: из каких частей состоит, как эволюционировал, как развивается из эмбриона, как взаимодействуют основные части. Основного текста меньше 300 стр.
4. A Brief History of Intelligence, Max Bennett. Mariner Books, 2023.
В книге рассматривается появление и эволюция мозга с точки зрения его функций и структуры. Выделяются пять фундаментальных стадий этой эволюции, на которых появлялись новые подсистемы, и они соотносятся с направлениями в AI. Своего рода, карта от AI к AGI, по крайней мере одна из возможных. 400+ страниц. Если вас не хватает на целую книгу, можно основные идеи прочитать в статьях автора, здесь и здесь.
Электронные версии всех книг можно найти в сети.
#основания
🔥2
👹 Compact Language Models via Pruning and Knowledge Distillation
Интереснейшая статья от NVIDIA с детальным анализом лучших практик по сжатию, прунингу, дистилляции моделей. Применив всё это они сжали свою 15B модель до 8B почти без потери качества, используя в дотренировке меньше 3% исходного датасета и получив +16% на MMLU относительно такой же модели тренированной с нуля.
Интереснейшая статья от NVIDIA с детальным анализом лучших практик по сжатию, прунингу, дистилляции моделей. Применив всё это они сжали свою 15B модель до 8B почти без потери качества, используя в дотренировке меньше 3% исходного датасета и получив +16% на MMLU относительно такой же модели тренированной с нуля.
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
❗️Калифорнийский университет в Дейвисе представил нейроинтерфейс с точностью 97,5%.
Это значительный прогресс в области нейроинтерфейсов и может потенциально улучшить качество жизни людей с тяжелыми нарушениями речи.
Свежее исследование показывает разработку нейропротеза речи, который декодирует попытки речи человека с боковым амиотрофическим склерозом (БАС) в текст с точностью 97,5%.
Вот основные моменты:
1. Устройство позволяет пациенту общаться с семьей, друзьями и коллегами у себя дома.
2. Нейропротез работает путем расшифровки внутрикортикальной нейронной активности во время попытки говорить в фонемы, которые затем собираются в слова и отображаются на экране в реальном времени.
3. Система работала с первого дня использования, достигнув более 99% точности декодирования слов при словаре в 50 слов. На второй день словарь был расширен до более чем 125 000 слов при сохранении точности более 90%.
4. К 15-й сессии точность декодирования достигла 97,5%, что примерно в 10 раз лучше, чем у предыдущих нейроинтерфейсов речи.
5. Высокая точность декодирования сохранялась более 8 месяцев после имплантации устройства.
6. Для достижения этих результатов были имплантированы четыре 64-канальных массива Юта в речедвигательную кору головного мозга.
7. Система активируется, когда пациент пытается говорить, и управляется с помощью отслеживания взгляда.
8. За более чем 248 часов использования пациент произнес более 21 000 предложений.
9. Нейропротез стал предпочтительным методом общения для пациента, позволив ему, в том числе, разговаривать с маленькой дочерью своим собственным голосом.
Это значительный прогресс в области нейроинтерфейсов и может потенциально улучшить качество жизни людей с тяжелыми нарушениями речи.
Свежее исследование показывает разработку нейропротеза речи, который декодирует попытки речи человека с боковым амиотрофическим склерозом (БАС) в текст с точностью 97,5%.
Вот основные моменты:
1. Устройство позволяет пациенту общаться с семьей, друзьями и коллегами у себя дома.
2. Нейропротез работает путем расшифровки внутрикортикальной нейронной активности во время попытки говорить в фонемы, которые затем собираются в слова и отображаются на экране в реальном времени.
3. Система работала с первого дня использования, достигнув более 99% точности декодирования слов при словаре в 50 слов. На второй день словарь был расширен до более чем 125 000 слов при сохранении точности более 90%.
4. К 15-й сессии точность декодирования достигла 97,5%, что примерно в 10 раз лучше, чем у предыдущих нейроинтерфейсов речи.
5. Высокая точность декодирования сохранялась более 8 месяцев после имплантации устройства.
6. Для достижения этих результатов были имплантированы четыре 64-канальных массива Юта в речедвигательную кору головного мозга.
7. Система активируется, когда пациент пытается говорить, и управляется с помощью отслеживания взгляда.
8. За более чем 248 часов использования пациент произнес более 21 000 предложений.
9. Нейропротез стал предпочтительным методом общения для пациента, позволив ему, в том числе, разговаривать с маленькой дочерью своим собственным голосом.
Telegram
All about AI, Web 3.0, BCI
Researchers demonstrated a speech neuroprosthesis that decodes the attempted speech of a man with ALS into text with 97.5% accuracy, enabling him to communicate with his family, friends, and colleagues in his own home.
Speech neuroprosthesis works by deciphering…
Speech neuroprosthesis works by deciphering…
Это пока инвазивно: имплантирована матрица из 256 электродов. Но такая точность распознавания (97,5%) при таком размере словаря (125 000 слов) и таком небольшом количестве электродов показывает, что это уже работает. Интересно также, что после распознавания синтезируется собственный голос человека, записанный до возникновения проблем. Ссылка на оригинальную публикацию: An Accurate and Rapidly Calibrating Speech Neuroprosthesis, а полный текст препринта без регистрации и смс здесь: medRxiv.
Архитектура Mamba появилась в декабре 2023. Она обещала более высокую скорость по сравнению с трансформерами, меньшее потребление памяти, и лучшую работу с длинными контекстами. Потом выяснилось, что она всё же теряла при этом некоторые свойства трансформеров, в частности в in-context learning. Также, было не ясно, насколько эти преимущества удастся сохранить при масштабировании.
Экспериментировать с ней стали в AI21 labs, по ходу вернули элементы трансформера и в марте 2024 вышла Jamba: гибридная архитектура на основе мамбы и трансформера, использующая также mixture of experts (MoE): одновременно активны в ней 12B параметров, а всего их 52B (статья). Затем, в мае, вышла её дообученная, инструктивная версия, Jamba-Instruct. А вчера (22 августа 2024) вышла Jamba 1.5, включающая плюс ко всему предыдущему ещё отмасштабированную версию модели: 94B активных параметров из 398B и новую технику квантизации, позволившую уместить её целиком на одной машине с 8-ю видеокартами (статья).
Авторы заявляют, что у модели самый большой эффективно обрабатываемй контекст на рынке: 256к токенов (есть модели и с бОльшим контекстом, но они не всегда с ним хорошо справляются). Самую высокую скорость: большая версия модели обгоняет Llama 3.1 405B примерно на четверть, а Mistral Large 2 - в 2,5 раза. У маленькой версии - похожие и даже чуть лучшие соотношения с конкурентами. И с качеством примерно одинаковым с конкурентами, кроме задач на длинный контекст, где она снова ощутимо лучше. Если эти измерения подтвердятся и не обнаружится новых дефектов, это претендент на будущий стандарт.
Экспериментировать с ней стали в AI21 labs, по ходу вернули элементы трансформера и в марте 2024 вышла Jamba: гибридная архитектура на основе мамбы и трансформера, использующая также mixture of experts (MoE): одновременно активны в ней 12B параметров, а всего их 52B (статья). Затем, в мае, вышла её дообученная, инструктивная версия, Jamba-Instruct. А вчера (22 августа 2024) вышла Jamba 1.5, включающая плюс ко всему предыдущему ещё отмасштабированную версию модели: 94B активных параметров из 398B и новую технику квантизации, позволившую уместить её целиком на одной машине с 8-ю видеокартами (статья).
Авторы заявляют, что у модели самый большой эффективно обрабатываемй контекст на рынке: 256к токенов (есть модели и с бОльшим контекстом, но они не всегда с ним хорошо справляются). Самую высокую скорость: большая версия модели обгоняет Llama 3.1 405B примерно на четверть, а Mistral Large 2 - в 2,5 раза. У маленькой версии - похожие и даже чуть лучшие соотношения с конкурентами. И с качеством примерно одинаковым с конкурентами, кроме задач на длинный контекст, где она снова ощутимо лучше. Если эти измерения подтвердятся и не обнаружится новых дефектов, это претендент на будущий стандарт.
❤1
🐳 Knowledge Mechanisms in Large Language Models: A Survey and Perspective
Интересный обзор о представлении и динамике знаний в языковых моделях. Охватывает все стадии жизни моделей: от запоминания, через представление и применение, до эволюции и генерации. Также рассмотрены методы исследования знаний в моделях, обобщаемость, хрупкость и другие аспекты. Предложены причины и способы компенсации этих явлений во время обучения, а также направления развития.
Интересный обзор о представлении и динамике знаний в языковых моделях. Охватывает все стадии жизни моделей: от запоминания, через представление и применение, до эволюции и генерации. Также рассмотрены методы исследования знаний в моделях, обобщаемость, хрупкость и другие аспекты. Предложены причины и способы компенсации этих явлений во время обучения, а также направления развития.
👍3
Хочу поделиться прекрасным youtube-каналом Артема Кирсанова.
Артем отучился на биофизике в МГУ и сейчас работает над PhD в области вычислительной нейронауки в New York University. Кроме того, что он рассматривает фундаментальные темы в нейронауке и машинном обучении, он делает это легко, как прекрасный преподаватель и моушн-дизайнер со вкусом. Если интересны ненапряжные обзоры ключевых идей, например, о пространственно-сенсорной интеграции в гиппокампе, или эволюции подходов к машинному обучению, или чем отличаются кросс-энтропия и KL-дивергенция - вам сюда, передано образно и доходчиво.
В частности, последняя серия роликов позволяет проследить эволюцию идей от сетей Хопфилда, к машинам Больцмана, затем к ограниченным машинам Больцмана (работой над которыми больше всего гордится Хинтон), а от них к современному глубокому обучению и генеративным моделям. А также понять, откуда идеи, что в DL надо приходить из теоретической физики, и что DL - экспериментальная наука (эти идеи популярны, например, в Anthropic, но ретранслируются много где).
Артем отучился на биофизике в МГУ и сейчас работает над PhD в области вычислительной нейронауки в New York University. Кроме того, что он рассматривает фундаментальные темы в нейронауке и машинном обучении, он делает это легко, как прекрасный преподаватель и моушн-дизайнер со вкусом. Если интересны ненапряжные обзоры ключевых идей, например, о пространственно-сенсорной интеграции в гиппокампе, или эволюции подходов к машинному обучению, или чем отличаются кросс-энтропия и KL-дивергенция - вам сюда, передано образно и доходчиво.
В частности, последняя серия роликов позволяет проследить эволюцию идей от сетей Хопфилда, к машинам Больцмана, затем к ограниченным машинам Больцмана (работой над которыми больше всего гордится Хинтон), а от них к современному глубокому обучению и генеративным моделям. А также понять, откуда идеи, что в DL надо приходить из теоретической физики, и что DL - экспериментальная наука (эти идеи популярны, например, в Anthropic, но ретранслируются много где).
YouTube
Artem Kirsanov
I'm a neuroscience PhD student at Harvard University. On this channel we explore interesting topic in computational neuroscience and machine learning
👍4
Если вдруг кто не знает, кто такой Андрей Карпатый - это один из наиболее профессиональных людей в индустрии, который работал и в OpenAI и в Tesla на руководящих должностях, а потом отовсюду ушел, чтобы делать шедевральные обучающие материалы - фундаментальные и одновременно простые, как мы любим. Например, этот его курс по языковым моделям, я жду.
Вот что он пишет про то, как уже изменилась сфера программирования (и это еще не конец):
Вот что он пишет про то, как уже изменилась сфера программирования (и это еще не конец):
Forwarded from AI Product | Igor Akimov
Даже Андрей Карпатый, ex-Tesla AI-директор, ex-OpenAI, фигачит на чиле с AI-ассистентом.
Программирование меняется так быстро... Я пробую VS Code Cursor + Sonnet 3.5 вместо GitHub Copilot и думаю, что теперь это выигрышная комбинация. Эмпирически, за последние несколько дней большая часть моего «программирования», - это
написание текста на английском (промпт, а затем просмотр и редактирование созданного
diffs) и немного «полукодирования», когда вы пишете первый фрагмент кода, который вам нужен, возможно, немного комментируете его, чтобы LLM знал, какой план, а затем tab - tab - tab - готово. Иногда вы получаете 100 строк нового кода, который идеально подходит, что могло бы занять 10+ минут раньше.
Я до сих пор не думаю, что достаточно освоился со всеми функциями. Это немного похоже на обучение кодированию заново, но я в принципе не могу себе представить, что на данный момент вернусь к «самостоятельному» кодированию, что было единственной возможностью всего около 3 лет назад.
Программирование меняется так быстро... Я пробую VS Code Cursor + Sonnet 3.5 вместо GitHub Copilot и думаю, что теперь это выигрышная комбинация. Эмпирически, за последние несколько дней большая часть моего «программирования», - это
написание текста на английском (промпт, а затем просмотр и редактирование созданного
diffs) и немного «полукодирования», когда вы пишете первый фрагмент кода, который вам нужен, возможно, немного комментируете его, чтобы LLM знал, какой план, а затем tab - tab - tab - готово. Иногда вы получаете 100 строк нового кода, который идеально подходит, что могло бы занять 10+ минут раньше.
Я до сих пор не думаю, что достаточно освоился со всеми функциями. Это немного похоже на обучение кодированию заново, но я в принципе не могу себе представить, что на данный момент вернусь к «самостоятельному» кодированию, что было единственной возможностью всего около 3 лет назад.
👍2
🐝 Omniglot: the online encyclopedia of writing systems and languages
Omniglot
Omniglot - the online encyclopedia of writing systems and languages
A guide to writing systems and languages, with useful phrases, tips on learning languages, multilingual texts, and much more.