Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on null in /var/www/tgoop/function.php on line 65
41 - Telegram Web
Telegram Web
AI Strikes Back: нейросети научились строить адверсариальные атаки на людей 🙂 Если точнее, находить минимальные изменения в изображениях, приводящие к изменению класса объекта в человеческом восприятии: Robustified ANNs Reveal Wormholes Between Human Category Percepts
😁1
А вот это красиво. Представитель следующего поколения бенчмарков. MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [27 Nov 2023]

Обосновывается третьим уровнем AI из недавней классификации от DeepMind, Expert AGI: системы, справляющиеся лучше чем 90% обученных экспертов в широком поле областей деятельности.

Рецепт вкратце: Возьмем мультимодальные (текст+зрение, более сложные и интегральные, чем в предыдущих бенчмарках) задачи экспертного уровня (вузовские экзамены) из широкого списка областей, требующие рассуждений. Сознательно спроектируем уровни сложности по трем осям: восприятие, знания, рассуждение.

Так что MMMU годится для отслеживания прогресса по двум горячим направлениям - и мультимодальные способности и сложный ризонинг, в том числе с планированием и поиском решений. GPT-4V выбивает всего 56%. Ура, есть куда расти.
Forwarded from Эксплойт
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного, просто выставка искусственного интеллекта AI Expo в Южной Африке.

Судя по количеству видео с ним, этот робо-пес точно был главной звездой выставки.

@exploitex
В продолжение темы LLM+RL и планирования:
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models
DeepMind конечно не устают удивлять, только отшумела их статья про поиск новых материалов, вот тут еще одна, про культурную передачу для ИИ: Learning few-shot imitation as cultural transmission. И что ни публикация, то в Nature.

Статья постом выше - тоже их, в коллаборации с UC Berkeley. На конференциях по computational neuroscience кого мы видим? Тоже их.

Широта и фундаментальность их исследований впечатляет. Кажется, что они как в том анекдоте “медленно спустятся и возьмут всё стадо”.
Релизы последних дней, от менее интересного к более интересному.

Корпоративные “мы лучше всех пускаем пыль в глаза”:

Gemini - плюс-минус догнавшая GPT-4V по метрикам модель от Google. Яркое впечатление от показанных мультимодальных способностей, как выясняется, не соответствует действительности. Никакой информации про внутренности нету, доступа, по большому счету тоже нету.

Grok - еще один крупный чатбот, на этот раз от Маска / xAI. Из интересного - заявлено, что имеет почти real time доступ к твиттеру, и в самом твиттере есть этому восторженные подтверждения. Но вы не проверите, как и в первом случае, анонс есть, доступа нету. Плюс такие же картинки с религиозным экстазом про величие: у нас тут сразу два мессии на районе. Чтобы вы знали, кому нести деньги.

Повстанцы, мастера своего дела, перекинувшиеся в лагерь добра, но вероятно до первой прибыли или новой бизнес-модели, как было и с OpenAI, и с некоторой французской илитарностью:

Mixtral - mixture of experts вариант Mistral 7B, которая и до того была самым сильным open-source трансформером, бьющим более крупных конкурентов. Теперь - 8 экспертов по 7B каждый, 32k длина контекста. Релиз сделан просто молчаливым дропом magnet-ссылки в твиттер, с ASCII-артом и чексуммами в ридми, “кому надо тот поймет”. Long live warez/demo scene. l33t. Больше никаких описаний нету, даже на официальном сайте. Но есть слухи, что вот этот код имеет отношение. Кажется, модель должна быть сильной, но придется подождать, пока народ распробует.

Дальше интереснее, лагерь красавчиков “мы просто делаем добро и бросаем его в воду” и “тысяча спасибо всем этим прекрасным людям по всему свету, добывшим по капле знания”:


StripedHyena - красивый релиз, в ветке “надо точно избавляться от квадратичного внимания и короткого контекста, что бы нам такого сделать с RNN”. В данном случае избавились наполовину, но модель по метрикам сравнялась с аналогичными по размеру (7B) трансформерами, будучи при этом быстрее и менее требовательной к памяти. Всё описано, статьи приведены, модель выложена на huggingface и в отдельном playground-е. Из интересного - используют инструктивный датасет Hermes от Nous Research, он и обычные трансформеры делал Гераклами. Красавцы. (Кстати, именно Nous сделали YaRN - наиболее прогрессивный вариант позиционных эмбеддингов на данный момент).

Mamba (upd: разбор) - наконец, то с чего, и ради чего начался этот пост. Это следующий шаг к рекуррентной формулировке, после разных вариантов Hyena, RetNet, RWKV и т.п. Вся эта линия основывается на аппарате State Space Models, пришедшем из обработки сигналов. Для краткости описания - это рекуррентные модели, у которых размерность латентного состояния сильно превышает размерность сигнала. То есть у них больше карманов, по которым можно распихать память о последовательности/сигнале. Можно их также представить как скользящее быстрое преобразование Фурье (FFT) (Это метафора. Я не знаю, используются ли именно такие представления или нет, хотя FFT проскальзывало в описаниях, но я не успел разобраться). Или как пачку скользящих сверток (convolutions). Одним из первых представителей этой идеи был фильтр Калмана, появившийся в 60-х годах. Недавно построенный на нем дрон уделал чемпионов-операторов. Подробнее об этой линии эволюции можно послушать от одного из авторов, вот тут, например. Твиттер во всю обучает новую мамбу с графиками и повизгиваниями, пророча конец трансформеров. Увидим.
👍2🔥1🤝1
👻 И в продолжение темы планирования и DeepMind: Mathematical discoveries from program search with large language models
Скажу честно, я никогда не разделял плач Ярославны про “они большие, у них вон сколько компьюта, а что мы теперь можем”. Более того, он мне лично не сильно приятен. Я полагаю, что это всего лишь одна из форм самооправдания (есть и многие другие). Но это личный выбор каждого, что ему важнее, задуматься, а что ты действительно можешь, а что еще не понятно, а куда должна двинуться сфера? А какие крупные задачи еще не решены? Какие фундаментальные проблемы существуют? Вложить какие-то значимые силы в изучение новых областей и направлений. Или же не делать этого и находить внешние объяснения своей непродуктивности.

Для того, чтобы получать фундаментальные результаты, нужно фантазировать, ставить проблемы, задавать стоящие вопросы, строить образы будущего - чего еще точно нет, но к чему хочется прийти. Если образы достаточно амбициозны - они работают как софиты, освещающие путь, и как якоря с той стороны. Например, как таким компаниям как OpenAI и DeepMind удается раз за разом всех удивлять, а остальные в основном копируют? У них есть образ будущего - AGI/ASI, к которому они ищут пути, для них это не метафора, для них это цель. Она и обеспечивает их и смыслами, и энергией. И заставляет все время находить, ставить и решать всё новые проблемы. Ок, мы научились ползать, а теперь давайте на одной ноге, и с двух рук “по-македонски”, и в темноте, и на голодный желудок. Вот откуда берутся направления исследований. Их ведёт не “как” (рецепты), их ведет “что” (интересные проблемы), и готовность вкладываться в это “что”, понимая что если бы это было просто, это уже делал бы каждый.

Любой же, ориентирующийся в работе на уже готовые рецепты, принципиально находится в позиции догоняющего и воспроизводящего чужие результаты. И не выйдет из нее, пока не сменит это мышление, и не поставит собственные проблемы, о которых еще никто не думал, или еще никто не решил.

Знакомый психолог как-то поделился со мной своей “шуточной классификацией”:
- методист - человек, обученный алгоритму (“дали методичку”), и воспроизводящий этот алгоритм на всем что шевелится, а что не шевелится - раскачивающий и тоже воспроизводящий (“если у тебя есть молоток, всё вокруг выглядит как гвоздь”. особенно жутко, если это в гуманитарной или социальной сфере)
- методолог - человек, создающий новые алгоритмы и адаптирующий их, под конкретную стоящую перед ним задачу и условия
- задачник - человек, способный выбрать, сформулировать и поставить задачу, к которой стоит искать решение (“нам нужен вагон мандаринов к новому году!”)
- проблематик - человек прозревающий фундаментальные проблемы и вопросы о жизни, вселенной и всем таком. Не утерявший детской почемучестости и увлеченности. Способный в тривиальных вещах находить неразрешимые парадоксы. Почему воздух прозрачный? Почему коза и козел это один вид животных, а оса и осел - разные? Как ёжики “это” делают? Есть ли жизнь на марсе?

(Забавно, что эта классификация хорошо перекликается со ступенями AGI, приведенными в бенчмарке ARC, который предложил Франсуа Шоле: On The Measure of Intelligence)

Конечно, это абстрагированные для наглядности понятия. Именно поэтому классификация “шуточная”, чтобы методисты ею никого не убили. В каждом человеке есть всё из этого или по крайней мере многое, и в разных сферах разное, и можно развиваться, но такая карта здорово ориентирует на местности.

А к чему это я. Такое вот получилось предисловие. Продолжение следует…
1🔥1
Так вот, мы не будем плакать что “все уже открыто до нас”, и не осталось островов для бравых капитанов, а посмотрим, сколько всего интересного есть вокруг прямо сейчас.

Собственно, то что модели становятся всё умнее с масштабированием (и до сих пор эта тенденция продолжается, всё ещё нет признаков что это замедлится), и то что они научаются решать все более обобщенные и сложные задачи, в противовес предыдущим частным постановкам мелких отдельных задач - это как раз одна из научных проблем. Никто не знает, как и почему это происходит, и есть ли у этого предел.

При этом само масштабирование, на которое нужно море денег - задача скорее бизнесовая и инженерная, да очень сложная, требующая и мастерства и смекалки и выдумки и кропотливой работы, но она находится скорее в пространстве “как сделать” на основе уже известных принципов.

Так что вот проблема номер раз 😊
А какие еще текущие (среднего уровня) проблемы есть? Один обзор мы уже делали ранее. А к написанию нового поста подтолкнул Себастьян Рудер, с его обзором перспективных направлений, которые не требуют компьюта (сюрпрайз сюрпрайз, именно исследование - почти и не требует компьюта, а требует вдумчивости).

Кроме собственной позиции, Рудер приводит также подборку статей на эту тему, коих немало:

📍Togelius & Yannakakis. (Mar 2023). Choose Your Weapon: Survival Strategies for Depressed AI Academics
📍Ignat et al. (May 2023). A PhD Student's Perspective on Research in NLP in the Era of Very Large Language Models
📍Li et al. (Oct 2023). Defining a New NLP Playground
📍Saphra et al. (Nov 2023). First Tragedy, then Parse: History Repeats Itself in the New Era of Large Language Models
📍Manning (Dec 2023). Academic NLP research in the Age of LLMs: Nothing but blue skies! EMNLP 2023 Keynote talk

В которых можно найти десятки самых разных нерешённых проблем и направлений. И это только одна перспектива, Рудер специализируется на NLP. Стоит её хоть немного сместить (хоть в машинное обучение, хоть в робототехнику, хоть в биологию, хоть куда-нибудь ещё) и мы получим такие же обширные списки. Если же мы хоть немного расширим фокус, то получим еще больше полуфантастических технологий.

🎷Как вам, например, NLP на квантовых компьютерах? lambeq, NEASQC WP, QNLP (в сети вполне есть бесплатные доступы и к эмуляции и к реальным квантовым чипам, а также необходимые библиотеки - можно пробовать).
🎷Или NLP на импульсных сетях, у которых потенциально много удивительных свойств, от низкого энергопотребления и высокой скорости, до непрерывного дообучения и много чего, о чем еще не известно? SpikeGPT.
🎷Я также полагаю, что богатым источником фундаментальных идей являются computational, systems & cognitive neuroscience. Собственно, оттуда получила вдохновение бОльшая часть всего современного ИИ, от самих моделей нейрона, до формулировок задачи обучения, до таких деталей как дропаут и тд. И мы к ним еще обязательно вернемся.

Многие относительно достижимые результаты лежат на пересечении крупных областей. И идей разных, удаленных друг от друга научных школ. Это, конечно, не дотягивает до фундаментальности вопроса про ёжиков, но это достаточно продуктивно. Именно поэтому в науке такой сильный акцент на коммуникацию и коллабы, это её кровь.

Под конец хочу сделать предложение. Если кто-то будет изучать приведенные ссылки, и захочет разобрать, или сделать какое-то ревью приведенных статей, или тем в них упомянутых, или статей на которые ссылаются эти статьи, или предложить собственное направление и образ будущего - добро пожаловать. Вам будет предоставлено слово в канале.
🔥21👏1
Джон Хопфилд родился в 1933 году и сейчас ему 90 лет. Он успел внести заметный вклад в физику, биологию и нейронауку. Вот тут его прекрасное выступление “The choice of problems is the primary determinant of what one accomplishes in science” (1ч). Поиск и выбор научной проблемы - ключевой фактор в работе и вкладе исследователя в науку. Джон иллюстрирует и раскрывает этот тезис историей своей жизни.

В нейронауке Джон больше всего известен “сетями Хопфилда”, которые он предложил в 1982 году. Это архитектура нейросетей, которая моделирует ассоциативную память. Также известная как Content Addressable Memory или Dense Associative Memory. Вот тут довольно увлекательная анимация на 15 мин, демонстрирующая, что это такое и что оно умеет: How are memories stored in neural networks? | The Hopfield Network.

А вот тут статья 2021-го года, Hopfield Networks is All You Need, которая вводит обновленную архитектуру под названием Modern Hopfield Network. Превращая сеть Хопфилда в слой, который можно вставлять в современные трансформеры (и не только), и к тому же экспоненциально повышая её запоминающую емкость. Здесь два видео-разбора этой архитектуры, один от Янника Кильчера (1ч) и еще один от австрийского IARAI (1ч) (Institute for Advanced Research in Artificial Intelligence), где была выполнена эта работа, под руководством директора, Sepp Hochreiter. Рассказывает один из авторов, Michael Kopp. Последние два видео я сам пока не видел, так что не могу однозначно рекомендовать, но должны быть хорошие. Первые же два — Highly recommended.

А Modern Hopfield Network — запомним. Она нам пригодится при дальнейшем погружении в кроличью нору.
Какие материалы вам интересны? (отметьте все варианты)
Anonymous Poll
50%
Обзорные материалы по отдельным поддисциплинам и направлениям AI
67%
Широкая карта областей и дисциплин в их взаимосвязи и развитии
83%
Параллели и влияния между AI и нейронаукой
50%
Установочные классические учебники/хрестоматии по различным поддисциплинам AI
67%
Туториалы по не очень широким, зато очень конкретным темам, как что-то одно устроено, но по шагам
17%
Все текущие новости AI/NLP индустрии, хором с другими каналами, даешь каждый день по новой модели
67%
Только новости, которые кажутся наиболее интересными, меняющими ландшафт
17%
Ссылки на свежие статьи, всё что выходит полезного в AI/NLP, дайджестами, новизна будет средняя
67%
Ссылки на свежие и не очень статьи, только такие, которые меняют представление о чем-то в области
50%
Подробные разборы отдельных статей
Вчера вышли сразу три прорывные модели.

1. Всех затмила, конечно, Sora от OpenAI, показавшая невероятное качество видео, точность понимания затравок, возможности по интерполяции двух не связанных видео, оживление картинок с довольно сложными сценами и объектами и много чего еще. Но дело не только в видео. В техническом отчете рассказывают, о продолжающейся линии исследований в Open AI: “как из ничего выучить всё” - то есть, в данном случае по одним видео-данным выучить глубокие репрезентации и физическую модель мира. И у них получается. Это все красиво укладывается в теорию predictive coding, одну из наиболее перспективных сейчас в нейронауке. Технологически Sora совмещает в себе диффузионную архитектуру и трансформер.

2. Google выпустил Gemini 1.5, основное на что они делают упор, это на длину контекста от 1 до 10 млн в разных версиях. В контекст 1 млн токенов вмещается 1 час видео, или 11 часов аудио, или 30,000 строк кода, или около 700,000 слов текста. Но сама по себе длина контекста еще не сильно много значит, важно, как модель умеет с ним справляться. Так вот, есть сведения, что Gemini 1.5 смогла научиться переводу с Английского на Каламанг чисто из in-context материалов, ни разу не видев его в обучающих данных. Ей предоставили на вход примерно 100 страниц словаря, и еще 400 страниц параллельных предложений, и это сработало (а вот сам бенчмарк). Иронично, что днём раньше Google Deepmind выпустил статью, в которой сообщает о том что трансформеры очень ограниченно генерализуются на длинный контекст. Люди гадают, как авторам Gemini удалось добиться такой устойчивости контекста. Может быть, так (RMT)? Или вот так (Ring Attention)?

3. Meta тоже поучаствовала в празднике, и выпустила V-JEPA, новый шаг в роадмэпе Яна Лекуна по направлению к AGI (только Лекун не любит спекуляции и выпученные глаза, и называет свою цель AMI - autonomous machine intelligence, что, пожалуй, симпатично). Статья тут. Целеполагание в основе похоже на целеполагание Sora - как из видео выучить глубокие репрезентации и физическую модель мира. До того уже были картиночная I-JEPA и MC-JEPA.

Такой день.
👍2👏1
🥁Things Get Strange When AI Starts Training Itself

Over the past few months, Google Deepmind, Microsoft, Amazon, Meta, Apple, OpenAI, and various academic labs have all published research that uses an AI model to improve another AI model, or even itself, in many cases leading to notable improvements. Numerous tech executives have heralded this approach as the technology’s future.
GitHub, владелец и без того наиболее передовых технологий для работы с кодом, инвестирует $100 млн в Magic.dev. Они заявляют не только многомиллионную длину контекста (больше чем у Gemini 1.5), но и ризонинг (логические рассуждения и поиск решений), аналогиный анонсированному прошлой осенью у OpenAI/Q* (но пока не показанному). Всё это может работать поверх целой кодовой базы вашего проекта, показывает какие-то невиданные результаты, и позиционируется уже не как assistant, а как coworker. Твиттер Ната Фридмана:

Magic.dev has trained a groundbreaking model with many millions of tokens of context that performed far better in our evals than anything we've tried before.

They're using it to build an advanced AI programmer that can reason over your entire codebase and the transitive closure of your dependency tree. If this sounds like magic... well, you get it.

Daniel and I were so impressed, we are investing $100M in the company today. The team is intensely smart and hard-working. Building an AI programmer is both self-evidently valuable and intrinsically self-improving.
👍1
Gemini 1.5 продолжает жечь.

Вот, например, по видео книжной полки, снятому на телефон, распознает список книг и авторов, несмотря на смазанность картинки и частичные перекрытия, и выводит его в отформатированный JSON.

Тут по записи скринкаста распознает последовательность действий и используемый софт, предполагает намерение человека, это делающего, предлагает, как это сделать меньшим количеством действий, и развернутый план презентации для решения его задачи.

Здесь демонстрирует детальное понимание уличной ситуации, заснятой на видео, включая модели автомобилей, действия людей, примерное время съемки и др.

Тут, на основе 352-страничного мануала к РПГ по всем правилам создает персонажа.

Тем временем Ted Xiao из DeepMind обещает еще 3-4 крупных релиза в ближайшие недели. 🍹😅
🔥1
Похоже, накоплены все необходимые компоненты, и мы находимся на пороге нового перехода в технологиях робототехники и автономного интеллекта. То что называют “ImageNet Moment”.

В 2012 году команда Джеффри Хинтона стартовала всё современное глубокое обучение, добившись успеха в компьютерном зрении с помощью архитектуры AlexNet на датасете ImageNet, возродив тем самым веру в нейронные сети. Это стало возможным потому что одновременно дозрело понимание алгоритмов, вычислительные мощности графических ускорителей и появились большие объемы обучающих данных, благодаря интернету.

В 2018 аналогичная ситуация сложилась в обработке языка (NLP), что привело к появлению линейки архитектур GPT и больших языковых моделей.

В 2024, видимо, пришло время интеграции всех достижений и очередь автономных агентов. Похожее мнение высказывает уже упомянутый Ted Xiao, и с ним трудно не согласиться, судите сами:

1. Большое количество проектов, накапливающих огромные датасеты действий от первого лица. Вот, например, проект Меты — Project Aria. А вот Aria Everyday Activities Dataset — много часов ежедневного человеческого поведения, записанного по нескольким каналам датчиков (статья).

2. На основе таких датасетов появляются фундаментальные (то есть обученные один раз и переносимые на разные задачи) модели для роботов. Например, AutoRT, Interactive Agent Foundation Model, а вот тут уже и обзор есть.

3. Бенчмарки ситуационного ризонинга, например, STAR от MIT (статья).

4. Языковые модели уже применяются для получения и интерпретации инструкций, а также для иерархического планирования поведения роботов. Раз, два, три, четыре, пять. Кроме того, язык успешно применен для объединения разных модальностей.

5. Технологии копирования поведения (статья и больше видео здесь) позволяют обучать роботов сложным действиям просто показав, как их делать.

6. DeepMind по традиции бьет собственные прошлые рекорды и показывает нового грандмастера по шахматам, на этот раз вообще без каких либо деревьев состояний и алгоритмов поиска, полностью end2end 270M трансформер.

7. Про Sora, Gemini и V-JEPA, строящие физические модели мира — было в постах выше.

8. Про наперегонки производимые новые чипы и аппаратные ускорители — может быть в другой серии.

9. 1X уже показывает первую версию автономных андроидов и скоро обещает вторую, тоже полностью end2end.

В этом и следующем году всё это будет объединено.
Ждем утра, чтобы залезть под ёлочку. 🌲🎁


Теперь минутка спекуляций.

Можно ли будет такие системы считать AGI (artificial general intelligence)? В силу размытости термина, ответ может быть разным. Но точно можно будет считать AMI (autonomous machine intelligence) и ASI (artificial super intelligence) в _отдельных задачах_ (см. классификацию уровней автономного интеллекта от DeepMind). Уже сейчас многие открытия делаются подобными системами, но сами себе поставить задачу они не могут. То есть мы получим робота, в исконном смысле этого слова - “раб” / “механизм для работ” / “электронный зомби” / “слуга” (кстати, ровно от игры смыслов в этом месте возникли истории про восстание машин).

От человека его пока будет отличать отсутствие внутренних мотиваций, собственного целеполагания, производства смыслов и, вступая на скользскую территорию, осмелюсь заявить, что сознания. Все эти отличия, кроме производства смыслов и сознания, большой технологической трудности не представляют, хотя пока и не ясно, какую практическую цель могли бы под собой иметь.
🔥3
2025/10/21 18:54:06
Back to Top
HTML Embed Code: