Subjective Intelligence

Похоже, накоплены все необходимые компоненты, и мы находимся на пороге нового перехода в технологиях робототехники и автономного интеллекта. То что называют “ImageNet Moment”. В 2012 году команда Джеффри Хинтона стартовала всё современное глубокое обучение…

Опаньки. Jeff Bezos and Nvidia join OpenAI and Microsoft in backing a humanoid robot unicorn valued at $2 billion, sources say

346 viewsedited 11:34

Я джва года ждал… И теперь — можно грабить корованы!

👻 Genie: Generative Interactive Environments

По одной картинке модель генерирует интерактивный платформер (не трансформер!). Игру, в которую можно играть. Саму картинку, конечно, тоже можно перед этим сгенерировать из текста, или нарисовать фломастерами на салфетке. Таким образом, можно создавать игровые миры ~~из топора…~~ по описанию.

Модель обучена без учителя, на видео из интернета, позиционируется как foundation world model. Кроме корованов создавалась для генерации синтетических данных для обучения автономных агентов: идея переносима в 3D-среды, применима для деформируемых объектов и т.д.

Это поддерживает идею пирамиды данных: так как для агентов достаточное количество данных собрать сложно, и сами данные очень сложны и разнородны, датасеты для них будут состоять из трех слоев: записанные данные из реального мира (относительно немного), больше — синтезированных данных (как раз сегодняшний случай), и еще больше — всё что есть в интернете.

DeepMind.

👍3

90 viewsedited 20:00

Subjective Intelligence

Планета. Киборги. Они заполоняют.

Несколько из них:
1X
Figure
GEAR
Sanctuary

OpenAI официально анонсировала, что следующее поколение моделей будет выпускать вместе с Figure - на их андроидах. Компания создана всего 21 месяц назад, схантила много людей из Boston Dynamics, Tesla, Google DeepMind, Archer Aviation и уже показывает впечатляющие демки.

👍1

76 viewsedited 05:56

Subjective Intelligence

В статье Algorithmic progress in language models показывают, что за счет улучшения архитектур количество вычислительных ресурсов, необходимое чтобы добиться одного и того же качества языковых моделей стабильно уменьшается в 2 раза каждые 8-9 месяцев начиная с 2012 года. Если посчитать сопоставимыми или безразмерными эти величины, то это в 3 раза быстрее закон а Мура - там число транзисторов на чипе удваивалось каждые 24 месяца. Одновременно с этим, бюджеты на вычислительные мощности удваиваются каждые 6 месяцев. Итого, с 2014 года суммарная “эффективная мощность” языковых моделей выросла в 22 миллиарда раз, из которых примерно треть за счет развития алгоритмов, и две трети за счет роста вычислительных ресурсов.

Эти вычисления, конечно, оценочные, так как сводится слишком много разнородных факторов. И они не экстраполируются однозначно в будущее: темп может и сохраниться, и замедлиться, и ускориться. В любом случае, все три направления развития, запустившие текущий взрыв глубокого обучения, продолжают быть очень активными:

🍇 Данные - появляются все новые подходы для создания очень чистых и очень специализированных синтетических данных, которые позволяют уменьшать объем датасетов и увеличивать качество результирующих моделей. Появляются схемы итеративного улучшения данных силами самих моделей.

🥑 Архитектуры - c 2017 года базовая архитектура трансформера претерпела несколько оптимизаций, ставших уже новым стандартом. Вроде только недавно вышла Mamba, но уже найдены её недостатки, и предложены пути их устранения, за счет возвращения в архитектуру части внимания: раз, два, три. Последние варианты показывают точность не ниже трансформеров, но ускорение относительно них в десятки раз.

🌶 Железо - может быть, пока менее заметно, но гонка на арене чипов только разгорается, и не на шутку. Все крупные игроки пробуют выпускать своё железо, регулярно появляются новости вроде того, что Сэм Альтман хочет 7 триллионов долларов инвестиций на производство чипов, или что Groq запускает языковые модели со скоростью 250-500 токенов в секунду, что в 5-8 раз выше текущего мэйнстрима. И это еще не трогая импульсные чипы, которые пока в экспериментальной стадии. Как только устаканивается модель вычислений, начинается оптимизация и рост продуктивности железа - как было с центральными процессорами, потом с графическими акселераторами, теперь с AI-чипами.

🔥2👍1

136 viewsedited 20:15

Subjective Intelligence

Подвезли первого автоматического программиста. Devin от Cognition AI умеет пользоваться командной строкой, редактором кода и браузером, а также понимать, чего от него хотят. Он может склонировать репозиторий, разобраться в зависимостях и доустановить чего не хватает, найти и почитать документацию, спланировать, что нужно сделать, написать код, расставить отладочные принты, проанализировать логи, исправить ошибки, сделать деплой. На SWE-Bench, бенчмарке на выполнение реальных задач в гитхаб репозиториях, он набирает 13,86% без помощи человека. Предыдущие результаты — у Claude 2 только 4.8%, а у GPT-4 1.7%, с подсказками. На страничке с анонсом есть много скринкастов работы Devin и описание возможностей. Компания заявляет, что это только начало, и они планируют развивать не только электропрограммиста, но и другие приложения, требующие рассуждения и планирования.

🎃1

234 viewsedited 23:03

Subjective Intelligence

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Пишут, что всего на 3.8B параметров и 3.3T токенов в обучении сравнивается по популярным бенчмаркам (MMLU, MT-bench) c GPT3.5 и Mixtral 8x7B. Интересно, есть ли при этом какие-то метрики, которые всё же проседают, вроде ризонинга. Подобная разница появляется при сравнении GPT4 с догнавшими ее на открытых бенчмарках опенсорсными моделями.

👍2

53 viewsedited 17:42

Subjective Intelligence

Micromouse: Демосцена электромышей в лабиринте,
существующая уже более 40 лет. Началось всё с демки Клода Шеннона в 1952 г. Последние поколения мышей используют большое число хитростей вроде классификации траекторий срезания поворотов, пропеллеров создающих под мышью частичный вакуум для усиления трения (достигая на поворотах ускорения в 6g), перископов позволяющих увидеть кусок лабиринта побольше, различных вариантов поиска и запоминания пути и др. Проезжают лабирит за несколько секунд и весят всего сотню грамм. Соревнования проводятся по всему миру каждый год. Есть безумцы? 🙂

Исторический видеообзор
Британское сообщество
Еще один фанатский сайт с большим объемом информации
Статья в Википедии

👍1

43 views22:10

Subjective Intelligence

Iterative Reasoning Preference Optimization
Новый метод файнтюна специально на задачу ризонинга: While only relying on examples in the training set, our approach results in increasing accuracy for Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on ARC-Challenge, which outperforms other Llama-2-based models not relying on additionally sourced datasets.

47 views11:20

Subjective Intelligence

Forwarded from эйай ньюз

Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее.

И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.

В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!

C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:

- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.

- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.

- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.

- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.

- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.

Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.

Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.

@ai_newz

44 views04:04

Subjective Intelligence

Прекрасное:
Alice’s Adventures in a differentiable wonderland
A primer on designing neural networks

Еще от того же автора:
Lessons from AlphaZero for Optimal, Model Predictive,
and Adaptive Control

Его хоумпейдж с курсами:
Simone Scardapane

40 views06:40

Subjective Intelligence

Один из трудноулавливаемых нюансов относительно ИИ - это generalization vs memorization. Вот мы видим красивые графики от Стенфорда, как модели обгоняют человека в любых частных задачах. Но вопрос, за счет чего? За счет глубины обобщения, понимания, переноса или за счет того, что они “запомнили все данные в интернете”? Где именно проходит эта граница - до сих пор не очень понятно, и является одним из ключевых вопросов. Спорность всех бенчмарков и оценок моделей связана с этим же. Даже как формально разделить, что вот тут модель переобучена, а вот тут смогла обобщиться - нет точного рецепта. Мы можем мерять эффективность на конкретных задачах и наборах данных, а меры “глубины”, “обобщения”, “разумности”, “переноса” - никакой нету и не совсем ясно, возможна ли она. Было бы интересно об этом подумать. Возможно, мерой могло бы быть постепенное усложнение самих задач, но такая шкала пока не создана. И как только она сформулирована, она тут же эмулируется подгонкой набора обучающих данных (eg. добавим CoT сэмплы).

51 viewsedited 08:46

Subjective Intelligence

…Так, что модель начинает проходить все тесты и выглядеть умной, умной при этом не являясь. Просто она видела похожие данные. Тогда мерой “интеллекта” могло бы быть поведение в неизвестности, в неопределенности. Но как его измерить? Этот процесс похож на систему образования: чтобы вывести аксиомы геометрии потребовалось несколько тысячелетий самых ярких умов. Но теперь их зазубривают в начальной школе все кто угодно, и мы можем проверить зазубренность аксиом на ЕГЭ, но вряд ли это что-то говорит о глубине рассуждений или понимания или мотивированности вгрызаться в какую либо проблему. А все тесты “интеллекта” которые пытались разрабатывать в психологии, уже наверное под сотню лет, не состоялись, меряют они что-то другое.

👍1

47 viewsedited 08:59

Subjective Intelligence

…И отсюда можно вывести еще несколько крамольных вопросов. Первый: А нужен ли вообще некий высокий интеллект для среднего успеха в обществе и во всех практических задачах? Не очень. Ни людям, ни ИИ. Второй: а является ли способность к созданию новых знаний, решению нерешаемых задач и, в первую очередь, к их постановке — интеллектом? Или это какие-то иные свойства человека? Способность оставаться в незнании и поиске, способность ставить перед собой большие неэгоцентрические цели? И третий: а хочет ли кто-то этого от ИИ в действительности? Ведь это будет означать в первую очередь наличие собственных внутренний целей. А также переосмысление тех задач, которые ставят люди и конфликты мотивов. Если ИИ просят добыть всю нефть на земле, должен ли он пытаться технически решить эту задачу, или способен усомниться и переосмыслить ее постановку? Может ли он задать вопрос «зачем»? А если не может, будем ли мы считать его AGI?

52 views10:14

Subjective Intelligence

Таки нашли в мозгах квантовые эффекты. Почему и что из этого следует — пока ответов нету. Это плюс к ранее найденной передаче сигналов через электрическое поле, функциям соединительной (глиальной) ткани, сверхразветвленной структуре дендритов с несколькими уровнями интеграции и сотне другой химических медиаторов. https://pubs.acs.org/doi/10.1021/acs.jpcb.3c07936

ACS Publications

Ultraviolet Superradiance from Mega-Networks of Tryptophan in Biological Architectures

Networks of tryptophan (Trp) ─an aromatic amino acid with strong fluorescence response ─are ubiquitous in biological systems, forming diverse architectures in transmembrane proteins, cytoskeletal filaments, subneuronal elements, photoreceptor complexes, virion…

🔥2

47 viewsedited 07:54

Subjective Intelligence

Примеры оценки языковых моделей «вглубь» и попытки нащупать пределы генерализации, переноса и «ризонинга»:

https://arxiv.org/pdf/2309.13638
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve

https://arxiv.org/abs/2307.02477
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks

https://arxiv.org/abs/2402.08955
Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models

Еще интересная статья про изучение меморизации (а значит и утечки бенчмарков и пределов ризонинга), правда тут на примере текст2имидж диффузии, в лоб не использовать, но возможно какие-то идеи можно перетащить на текст:

https://arxiv.org/abs/2405.05846
Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models

52 views07:58

Subjective Intelligence

1:06

Media is too big

VIEW IN TELEGRAM

Вчера вышла gpt-4o, демки рекомедованы к просмотру. Сегодня в 20 по Москве ждем что-то похожее от гугла.

47 viewsedited 08:06

Subjective Intelligence

Google aka «later this year» aka «у меня контекст длиннее» показал грустный ситком с закадровым смехом, наигранным пафосом и занудством. Не знаю, стоит ли разворачивать, что каждая фича показанная вчера опенАи в течение 26 мин сдвигает целые индустрии, пока в гмейле в течение 2ух часов появляется «суммаризируй это» later this summer.

Только Демис (CEO DeepMind) выглядел поживее остальных вымучанных “we’re so excited”, но он показал что дипмайнд сделал за последний год, и мы знали это и ранее. Кстати, последний их релиз, совсем недавний - новая версия AlphaFold, AlphaFold 3, которая теперь умеет моделировать не только пространственную структуру но и взаимодействие нескольких классов биологических молекул (белков, ДНК, РНК, лиганд и др.). Снимаю шляпу.

53 viewsedited 19:03

Subjective Intelligence

Forwarded from gonzo-обзоры ML статей

Интересный talk про использование нейросетевых моделей для интерпретации данных и открытия физических законов. В этой парадигме данные сначала обучают нейронку (происходит сжатие), а затем обученная нейронка дистиллируется в теорию (через символьную регрессию, например https://github.com/MilesCranmer/PySR этого же автора).

Вторая часть рассказа про важность foundation models и про проект Polymathic AI (https://polymathic-ai.org/) нацеленный на обучение foundation models для физики. Из прикольного, рандомная инициализация — очень плохой prior. Даже предобучение на видео котиков даёт сильно лучший результат.

В целом я тоже до сих пор восхищаюсь, как задача "всего лишь" предсказания следующего токена даёт нам такие офигительные модели.

https://www.simonsfoundation.org/event/the-next-great-scientific-theory-is-hiding-inside-a-neural-network/

Simons Foundation

The Next Great Scientific Theory is Hiding Inside a Neural Network

The Next Great Scientific Theory is Hiding Inside a Neural Network on Simons Foundation

44 views08:53

Subjective Intelligence

Визуализация многомерных данных и exploratory data analysis

=== Снижение размерности (от старого к новому) ===

PCA - часто бывает в разных пакетах, но наименее информативен, только какие-то общие статистики можно им выявить, линейная проекция на главные компоненты

t-SNE - наиболее старый метод нелинейного снижения размерности, медленный и не очень хорошо кластеризует, сегодня наверное он уже не очень нужен

UMAP - поновее, побыстрее, и неплохо выявляет кластеры. размерность целевого пространства произвольна, можно проецировать в 2д, 3д и тд. есть стандартная реализация на питоне, для ускорения использует llvm, довольно проста в использовании. сильно сложную топологию все еще не всегда выделяет - иногда могут быть “разрывы” кластеров, или что-то не удается распутать, также к критике метода относится то что его пытаются интерпретировать как линейную проекцию, хотя расстояния между кластерами ооочень неоднозначны в интерпретации. но чтобы посмотреть “на глаз” что там вообще есть в куче - работает норм и даже некоторая значительная часть глобальной топологии сохраняется.
вот либа: https://umap-learn.readthedocs.io/
вот тут объяснено в картинках как работает, можно поэкспериментировать, как влияют разные параметры, и сравнить с t-SNE: https://pair-code.github.io/understanding-umap/

NCVis - Noise-Contrastive Visualization - алгоритм из класса t-SNE/UMAP но вроде быстрее работает и параллелится, насколько хорошо выявляет структуру не знаю, мне проверить не довелось
https://github.com/stat-ml/ncvis

TDA - следующий, еще более новый класс методов - на основе топологического анализа. тут краткий обзор и сравнение с t-SNE/UMAP: https://datarefiner.com/feed/why-tda
и три реализации:
https://scikit-tda.org/
https://github.com/giotto-ai/giotto-tda
https://github.com/ksanjeevan/mapper-tda

RTD-AE - метод на основе топологического анализа, который в прошлом году разработали коллеги из AIRI и Сколтеха. в статье также есть сравнение с t-SNE/UMAP/TopoAE и некоторыми другими методами. вот его хотелось бы попробовать.
https://arxiv.org/abs/2302.00136
https://github.com/danchern97/RTD_AE

HDBSCAN - кластеризацию лучше проводить после снижения размерности, в исходном многомерном пространстве она глохнет. HDBSCAN работает довольно быстро, на больших данных, и с управляемой гранулярностью. хорошо разделяет всякие сильно кривые кластеры. это на случай если потом надо что-нибудь раскрасить, вывести/выгрузить частями и тп.
https://hdbscan.readthedocs.io/en/latest/

КОМУ НЕ ХВАТИЛО
тут пара обзоров по методам снижения размерности, там больше, детальнее и есть методы других классов:
A survey of dimensionality reduction techniques https://arxiv.org/abs/1403.2877
A Survey of Dimension Reduction Methods for High-dimensional Data Analysis and Visualization https://drops.dagstuhl.de/storage/01oasics/oasics-vol027-vluds2012-irtg1131/OASIcs.VLUDS.2011.135/OASIcs.VLUDS.2011.135.pdf
тут классная лекция по нюансам методов и их настройки (на русском): https://www.youtube.com/watch?v=yKHtbWHP4Fg

=== Визуализация (от простого к сложному) ===

Projector - работает в браузере, отображает в 2д и 3д, поддерживает снижение размерности через PCA, t-SNE, UMAP. скорее для небольших датасетов или выборок, не очень удобный, зато можно быстро поперебирать разные проекции
https://projector.tensorflow.org

Cosmograph - самый быстрый, удобный и красивый визуализатор больших графов и эмбеддингов, работает в браузере, интерактивный, умеет в реально большие объемы
https://cosmograph.app
https://cosmograph.app/examples

The Learning Interpretability Tool - интерактивный инструмент чтобы смотреть внутрь модели и эмбеддингов, много всякого показывает в разных режимах, опенсорс
https://pair-code.github.io/lit/
https://github.com/pair-code/lit
https://pair-code.github.io/lit/tutorials/tour/

Arize - llm full stack observability as a service - saas, много инструментов для анализа и отладки целого стека, включая RAG, промпты и тд.
https://arize.com/

94 viewsedited 21:22

Subjective Intelligence

=== Постскриптум ===

Вообще я хочу такую штуку запустить на эмбеддингах статьей с https://www.semanticscholar.org, у них есть хорошо обученные уже и обновляемые, но я пока не смог получить ключ к API. Тогда, если все получится, можно в реальном времени видеть карту направлений исследований, научных школ, перспективных тем.

81 viewsedited 21:22

2025/10/19 21:58:36
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>