Я джва года ждал… И теперь — можно грабить корованы!
👻 Genie: Generative Interactive Environments
По одной картинке модель генерирует интерактивный платформер (не трансформер!). Игру, в которую можно играть. Саму картинку, конечно, тоже можно перед этим сгенерировать из текста, или нарисовать фломастерами на салфетке. Таким образом, можно создавать игровые мирыиз топора… по описанию.
Модель обучена без учителя, на видео из интернета, позиционируется как foundation world model. Кроме корованов создавалась для генерации синтетических данных для обучения автономных агентов: идея переносима в 3D-среды, применима для деформируемых объектов и т.д.
Это поддерживает идею пирамиды данных: так как для агентов достаточное количество данных собрать сложно, и сами данные очень сложны и разнородны, датасеты для них будут состоять из трех слоев: записанные данные из реального мира (относительно немного), больше — синтезированных данных (как раз сегодняшний случай), и еще больше — всё что есть в интернете.
DeepMind.
👻 Genie: Generative Interactive Environments
По одной картинке модель генерирует интерактивный платформер (не трансформер!). Игру, в которую можно играть. Саму картинку, конечно, тоже можно перед этим сгенерировать из текста, или нарисовать фломастерами на салфетке. Таким образом, можно создавать игровые миры
Модель обучена без учителя, на видео из интернета, позиционируется как foundation world model. Кроме корованов создавалась для генерации синтетических данных для обучения автономных агентов: идея переносима в 3D-среды, применима для деформируемых объектов и т.д.
Это поддерживает идею пирамиды данных: так как для агентов достаточное количество данных собрать сложно, и сами данные очень сложны и разнородны, датасеты для них будут состоять из трех слоев: записанные данные из реального мира (относительно немного), больше — синтезированных данных (как раз сегодняшний случай), и еще больше — всё что есть в интернете.
DeepMind.
👍3
Планета. Киборги. Они заполоняют.
Несколько из них:
1X
Figure
GEAR
Sanctuary
OpenAI официально анонсировала, что следующее поколение моделей будет выпускать вместе с Figure - на их андроидах. Компания создана всего 21 месяц назад, схантила много людей из Boston Dynamics, Tesla, Google DeepMind, Archer Aviation и уже показывает впечатляющие демки.
Несколько из них:
1X
Figure
GEAR
Sanctuary
OpenAI официально анонсировала, что следующее поколение моделей будет выпускать вместе с Figure - на их андроидах. Компания создана всего 21 месяц назад, схантила много людей из Boston Dynamics, Tesla, Google DeepMind, Archer Aviation и уже показывает впечатляющие демки.
👍1
В статье Algorithmic progress in language models показывают, что за счет улучшения архитектур количество вычислительных ресурсов, необходимое чтобы добиться одного и того же качества языковых моделей стабильно уменьшается в 2 раза каждые 8-9 месяцев начиная с 2012 года. Если посчитать сопоставимыми или безразмерными эти величины, то это в 3 раза быстрее закона Мура - там число транзисторов на чипе удваивалось каждые 24 месяца. Одновременно с этим, бюджеты на вычислительные мощности удваиваются каждые 6 месяцев. Итого, с 2014 года суммарная “эффективная мощность” языковых моделей выросла в 22 миллиарда раз, из которых примерно треть за счет развития алгоритмов, и две трети за счет роста вычислительных ресурсов.
Эти вычисления, конечно, оценочные, так как сводится слишком много разнородных факторов. И они не экстраполируются однозначно в будущее: темп может и сохраниться, и замедлиться, и ускориться. В любом случае, все три направления развития, запустившие текущий взрыв глубокого обучения, продолжают быть очень активными:
🍇 Данные - появляются все новые подходы для создания очень чистых и очень специализированных синтетических данных, которые позволяют уменьшать объем датасетов и увеличивать качество результирующих моделей. Появляются схемы итеративного улучшения данных силами самих моделей.
🥑 Архитектуры - c 2017 года базовая архитектура трансформера претерпела несколько оптимизаций, ставших уже новым стандартом. Вроде только недавно вышла Mamba, но уже найдены её недостатки, и предложены пути их устранения, за счет возвращения в архитектуру части внимания: раз, два, три. Последние варианты показывают точность не ниже трансформеров, но ускорение относительно них в десятки раз.
🌶 Железо - может быть, пока менее заметно, но гонка на арене чипов только разгорается, и не на шутку. Все крупные игроки пробуют выпускать своё железо, регулярно появляются новости вроде того, что Сэм Альтман хочет 7 триллионов долларов инвестиций на производство чипов, или что Groq запускает языковые модели со скоростью 250-500 токенов в секунду, что в 5-8 раз выше текущего мэйнстрима. И это еще не трогая импульсные чипы, которые пока в экспериментальной стадии. Как только устаканивается модель вычислений, начинается оптимизация и рост продуктивности железа - как было с центральными процессорами, потом с графическими акселераторами, теперь с AI-чипами.
Эти вычисления, конечно, оценочные, так как сводится слишком много разнородных факторов. И они не экстраполируются однозначно в будущее: темп может и сохраниться, и замедлиться, и ускориться. В любом случае, все три направления развития, запустившие текущий взрыв глубокого обучения, продолжают быть очень активными:
🍇 Данные - появляются все новые подходы для создания очень чистых и очень специализированных синтетических данных, которые позволяют уменьшать объем датасетов и увеличивать качество результирующих моделей. Появляются схемы итеративного улучшения данных силами самих моделей.
🥑 Архитектуры - c 2017 года базовая архитектура трансформера претерпела несколько оптимизаций, ставших уже новым стандартом. Вроде только недавно вышла Mamba, но уже найдены её недостатки, и предложены пути их устранения, за счет возвращения в архитектуру части внимания: раз, два, три. Последние варианты показывают точность не ниже трансформеров, но ускорение относительно них в десятки раз.
🌶 Железо - может быть, пока менее заметно, но гонка на арене чипов только разгорается, и не на шутку. Все крупные игроки пробуют выпускать своё железо, регулярно появляются новости вроде того, что Сэм Альтман хочет 7 триллионов долларов инвестиций на производство чипов, или что Groq запускает языковые модели со скоростью 250-500 токенов в секунду, что в 5-8 раз выше текущего мэйнстрима. И это еще не трогая импульсные чипы, которые пока в экспериментальной стадии. Как только устаканивается модель вычислений, начинается оптимизация и рост продуктивности железа - как было с центральными процессорами, потом с графическими акселераторами, теперь с AI-чипами.
🔥2👍1
Подвезли первого автоматического программиста. Devin от Cognition AI умеет пользоваться командной строкой, редактором кода и браузером, а также понимать, чего от него хотят. Он может склонировать репозиторий, разобраться в зависимостях и доустановить чего не хватает, найти и почитать документацию, спланировать, что нужно сделать, написать код, расставить отладочные принты, проанализировать логи, исправить ошибки, сделать деплой. На SWE-Bench, бенчмарке на выполнение реальных задач в гитхаб репозиториях, он набирает 13,86% без помощи человека. Предыдущие результаты — у Claude 2 только 4.8%, а у GPT-4 1.7%, с подсказками. На страничке с анонсом есть много скринкастов работы Devin и описание возможностей. Компания заявляет, что это только начало, и они планируют развивать не только электропрограммиста, но и другие приложения, требующие рассуждения и планирования.
🎃1
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Пишут, что всего на 3.8B параметров и 3.3T токенов в обучении сравнивается по популярным бенчмаркам (MMLU, MT-bench) c GPT3.5 и Mixtral 8x7B. Интересно, есть ли при этом какие-то метрики, которые всё же проседают, вроде ризонинга. Подобная разница появляется при сравнении GPT4 с догнавшими ее на открытых бенчмарках опенсорсными моделями.
Пишут, что всего на 3.8B параметров и 3.3T токенов в обучении сравнивается по популярным бенчмаркам (MMLU, MT-bench) c GPT3.5 и Mixtral 8x7B. Интересно, есть ли при этом какие-то метрики, которые всё же проседают, вроде ризонинга. Подобная разница появляется при сравнении GPT4 с догнавшими ее на открытых бенчмарках опенсорсными моделями.
👍2
Micromouse: Демосцена электромышей в лабиринте,
существующая уже более 40 лет. Началось всё с демки Клода Шеннона в 1952 г. Последние поколения мышей используют большое число хитростей вроде классификации траекторий срезания поворотов, пропеллеров создающих под мышью частичный вакуум для усиления трения (достигая на поворотах ускорения в 6g), перископов позволяющих увидеть кусок лабиринта побольше, различных вариантов поиска и запоминания пути и др. Проезжают лабирит за несколько секунд и весят всего сотню грамм. Соревнования проводятся по всему миру каждый год. Есть безумцы? 🙂
Исторический видеообзор
Британское сообщество
Еще один фанатский сайт с большим объемом информации
Статья в Википедии
существующая уже более 40 лет. Началось всё с демки Клода Шеннона в 1952 г. Последние поколения мышей используют большое число хитростей вроде классификации траекторий срезания поворотов, пропеллеров создающих под мышью частичный вакуум для усиления трения (достигая на поворотах ускорения в 6g), перископов позволяющих увидеть кусок лабиринта побольше, различных вариантов поиска и запоминания пути и др. Проезжают лабирит за несколько секунд и весят всего сотню грамм. Соревнования проводятся по всему миру каждый год. Есть безумцы? 🙂
Исторический видеообзор
Британское сообщество
Еще один фанатский сайт с большим объемом информации
Статья в Википедии
👍1
Iterative Reasoning Preference Optimization
Новый метод файнтюна специально на задачу ризонинга: While only relying on examples in the training set, our approach results in increasing accuracy for Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on ARC-Challenge, which outperforms other Llama-2-based models not relying on additionally sourced datasets.
Новый метод файнтюна специально на задачу ризонинга: While only relying on examples in the training set, our approach results in increasing accuracy for Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on ARC-Challenge, which outperforms other Llama-2-based models not relying on additionally sourced datasets.
Forwarded from эйай ньюз
Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее.
И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.
В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!
C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:
- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.
- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.
- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.
- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.
- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.
Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.
Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.
@ai_newz
И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.
В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!
C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:
- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.
- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.
- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.
- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.
- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.
Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.
Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.
@ai_newz
Прекрасное:
Alice’s Adventures in a differentiable wonderland
A primer on designing neural networks
Еще от того же автора:
Lessons from AlphaZero for Optimal, Model Predictive,
and Adaptive Control
Его хоумпейдж с курсами:
Simone Scardapane
Alice’s Adventures in a differentiable wonderland
A primer on designing neural networks
Еще от того же автора:
Lessons from AlphaZero for Optimal, Model Predictive,
and Adaptive Control
Его хоумпейдж с курсами:
Simone Scardapane
Один из трудноулавливаемых нюансов относительно ИИ - это generalization vs memorization. Вот мы видим красивые графики от Стенфорда, как модели обгоняют человека в любых частных задачах. Но вопрос, за счет чего? За счет глубины обобщения, понимания, переноса или за счет того, что они “запомнили все данные в интернете”? Где именно проходит эта граница - до сих пор не очень понятно, и является одним из ключевых вопросов. Спорность всех бенчмарков и оценок моделей связана с этим же. Даже как формально разделить, что вот тут модель переобучена, а вот тут смогла обобщиться - нет точного рецепта. Мы можем мерять эффективность на конкретных задачах и наборах данных, а меры “глубины”, “обобщения”, “разумности”, “переноса” - никакой нету и не совсем ясно, возможна ли она. Было бы интересно об этом подумать. Возможно, мерой могло бы быть постепенное усложнение самих задач, но такая шкала пока не создана. И как только она сформулирована, она тут же эмулируется подгонкой набора обучающих данных (eg. добавим CoT сэмплы).
…Так, что модель начинает проходить все тесты и выглядеть умной, умной при этом не являясь. Просто она видела похожие данные. Тогда мерой “интеллекта” могло бы быть поведение в неизвестности, в неопределенности. Но как его измерить? Этот процесс похож на систему образования: чтобы вывести аксиомы геометрии потребовалось несколько тысячелетий самых ярких умов. Но теперь их зазубривают в начальной школе все кто угодно, и мы можем проверить зазубренность аксиом на ЕГЭ, но вряд ли это что-то говорит о глубине рассуждений или понимания или мотивированности вгрызаться в какую либо проблему. А все тесты “интеллекта” которые пытались разрабатывать в психологии, уже наверное под сотню лет, не состоялись, меряют они что-то другое.
👍1
…И отсюда можно вывести еще несколько крамольных вопросов. Первый: А нужен ли вообще некий высокий интеллект для среднего успеха в обществе и во всех практических задачах? Не очень. Ни людям, ни ИИ. Второй: а является ли способность к созданию новых знаний, решению нерешаемых задач и, в первую очередь, к их постановке — интеллектом? Или это какие-то иные свойства человека? Способность оставаться в незнании и поиске, способность ставить перед собой большие неэгоцентрические цели? И третий: а хочет ли кто-то этого от ИИ в действительности? Ведь это будет означать в первую очередь наличие собственных внутренний целей. А также переосмысление тех задач, которые ставят люди и конфликты мотивов. Если ИИ просят добыть всю нефть на земле, должен ли он пытаться технически решить эту задачу, или способен усомниться и переосмыслить ее постановку? Может ли он задать вопрос «зачем»? А если не может, будем ли мы считать его AGI?
Таки нашли в мозгах квантовые эффекты. Почему и что из этого следует — пока ответов нету. Это плюс к ранее найденной передаче сигналов через электрическое поле, функциям соединительной (глиальной) ткани, сверхразветвленной структуре дендритов с несколькими уровнями интеграции и сотне другой химических медиаторов. https://pubs.acs.org/doi/10.1021/acs.jpcb.3c07936
ACS Publications
Ultraviolet Superradiance from Mega-Networks of Tryptophan in Biological Architectures
Networks of tryptophan (Trp) ─an aromatic amino acid with strong fluorescence response ─are ubiquitous in biological systems, forming diverse architectures in transmembrane proteins, cytoskeletal filaments, subneuronal elements, photoreceptor complexes, virion…
🔥2
Примеры оценки языковых моделей «вглубь» и попытки нащупать пределы генерализации, переноса и «ризонинга»:
https://arxiv.org/pdf/2309.13638
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
https://arxiv.org/abs/2307.02477
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks
https://arxiv.org/abs/2402.08955
Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models
Еще интересная статья про изучение меморизации (а значит и утечки бенчмарков и пределов ризонинга), правда тут на примере текст2имидж диффузии, в лоб не использовать, но возможно какие-то идеи можно перетащить на текст:
https://arxiv.org/abs/2405.05846
Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models
https://arxiv.org/pdf/2309.13638
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
https://arxiv.org/abs/2307.02477
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks
https://arxiv.org/abs/2402.08955
Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models
Еще интересная статья про изучение меморизации (а значит и утечки бенчмарков и пределов ризонинга), правда тут на примере текст2имидж диффузии, в лоб не использовать, но возможно какие-то идеи можно перетащить на текст:
https://arxiv.org/abs/2405.05846
Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models
Media is too big
VIEW IN TELEGRAM
Вчера вышла gpt-4o, демки рекомедованы к просмотру. Сегодня в 20 по Москве ждем что-то похожее от гугла.
Google aka «later this year» aka «у меня контекст длиннее» показал грустный ситком с закадровым смехом, наигранным пафосом и занудством. Не знаю, стоит ли разворачивать, что каждая фича показанная вчера опенАи в течение 26 мин сдвигает целые индустрии, пока в гмейле в течение 2ух часов появляется «суммаризируй это» later this summer.
Только Демис (CEO DeepMind) выглядел поживее остальных вымучанных “we’re so excited”, но он показал что дипмайнд сделал за последний год, и мы знали это и ранее. Кстати, последний их релиз, совсем недавний - новая версия AlphaFold, AlphaFold 3, которая теперь умеет моделировать не только пространственную структуру но и взаимодействие нескольких классов биологических молекул (белков, ДНК, РНК, лиганд и др.). Снимаю шляпу.
Только Демис (CEO DeepMind) выглядел поживее остальных вымучанных “we’re so excited”, но он показал что дипмайнд сделал за последний год, и мы знали это и ранее. Кстати, последний их релиз, совсем недавний - новая версия AlphaFold, AlphaFold 3, которая теперь умеет моделировать не только пространственную структуру но и взаимодействие нескольких классов биологических молекул (белков, ДНК, РНК, лиганд и др.). Снимаю шляпу.
Forwarded from gonzo-обзоры ML статей
Интересный talk про использование нейросетевых моделей для интерпретации данных и открытия физических законов. В этой парадигме данные сначала обучают нейронку (происходит сжатие), а затем обученная нейронка дистиллируется в теорию (через символьную регрессию, например https://github.com/MilesCranmer/PySR этого же автора).
Вторая часть рассказа про важность foundation models и про проект Polymathic AI (https://polymathic-ai.org/) нацеленный на обучение foundation models для физики. Из прикольного, рандомная инициализация — очень плохой prior. Даже предобучение на видео котиков даёт сильно лучший результат.
В целом я тоже до сих пор восхищаюсь, как задача "всего лишь" предсказания следующего токена даёт нам такие офигительные модели.
https://www.simonsfoundation.org/event/the-next-great-scientific-theory-is-hiding-inside-a-neural-network/
Вторая часть рассказа про важность foundation models и про проект Polymathic AI (https://polymathic-ai.org/) нацеленный на обучение foundation models для физики. Из прикольного, рандомная инициализация — очень плохой prior. Даже предобучение на видео котиков даёт сильно лучший результат.
В целом я тоже до сих пор восхищаюсь, как задача "всего лишь" предсказания следующего токена даёт нам такие офигительные модели.
https://www.simonsfoundation.org/event/the-next-great-scientific-theory-is-hiding-inside-a-neural-network/
Simons Foundation
The Next Great Scientific Theory is Hiding Inside a Neural Network
The Next Great Scientific Theory is Hiding Inside a Neural Network on Simons Foundation
Визуализация многомерных данных и exploratory data analysis
=== Снижение размерности (от старого к новому) ===
PCA - часто бывает в разных пакетах, но наименее информативен, только какие-то общие статистики можно им выявить, линейная проекция на главные компоненты
t-SNE - наиболее старый метод нелинейного снижения размерности, медленный и не очень хорошо кластеризует, сегодня наверное он уже не очень нужен
UMAP - поновее, побыстрее, и неплохо выявляет кластеры. размерность целевого пространства произвольна, можно проецировать в 2д, 3д и тд. есть стандартная реализация на питоне, для ускорения использует llvm, довольно проста в использовании. сильно сложную топологию все еще не всегда выделяет - иногда могут быть “разрывы” кластеров, или что-то не удается распутать, также к критике метода относится то что его пытаются интерпретировать как линейную проекцию, хотя расстояния между кластерами ооочень неоднозначны в интерпретации. но чтобы посмотреть “на глаз” что там вообще есть в куче - работает норм и даже некоторая значительная часть глобальной топологии сохраняется.
вот либа: https://umap-learn.readthedocs.io/
вот тут объяснено в картинках как работает, можно поэкспериментировать, как влияют разные параметры, и сравнить с t-SNE: https://pair-code.github.io/understanding-umap/
NCVis - Noise-Contrastive Visualization - алгоритм из класса t-SNE/UMAP но вроде быстрее работает и параллелится, насколько хорошо выявляет структуру не знаю, мне проверить не довелось
https://github.com/stat-ml/ncvis
TDA - следующий, еще более новый класс методов - на основе топологического анализа. тут краткий обзор и сравнение с t-SNE/UMAP: https://datarefiner.com/feed/why-tda
и три реализации:
https://scikit-tda.org/
https://github.com/giotto-ai/giotto-tda
https://github.com/ksanjeevan/mapper-tda
RTD-AE - метод на основе топологического анализа, который в прошлом году разработали коллеги из AIRI и Сколтеха. в статье также есть сравнение с t-SNE/UMAP/TopoAE и некоторыми другими методами. вот его хотелось бы попробовать.
https://arxiv.org/abs/2302.00136
https://github.com/danchern97/RTD_AE
HDBSCAN - кластеризацию лучше проводить после снижения размерности, в исходном многомерном пространстве она глохнет. HDBSCAN работает довольно быстро, на больших данных, и с управляемой гранулярностью. хорошо разделяет всякие сильно кривые кластеры. это на случай если потом надо что-нибудь раскрасить, вывести/выгрузить частями и тп.
https://hdbscan.readthedocs.io/en/latest/
КОМУ НЕ ХВАТИЛО
тут пара обзоров по методам снижения размерности, там больше, детальнее и есть методы других классов:
A survey of dimensionality reduction techniques https://arxiv.org/abs/1403.2877
A Survey of Dimension Reduction Methods for High-dimensional Data Analysis and Visualization https://drops.dagstuhl.de/storage/01oasics/oasics-vol027-vluds2012-irtg1131/OASIcs.VLUDS.2011.135/OASIcs.VLUDS.2011.135.pdf
тут классная лекция по нюансам методов и их настройки (на русском): https://www.youtube.com/watch?v=yKHtbWHP4Fg
=== Визуализация (от простого к сложному) ===
Projector - работает в браузере, отображает в 2д и 3д, поддерживает снижение размерности через PCA, t-SNE, UMAP. скорее для небольших датасетов или выборок, не очень удобный, зато можно быстро поперебирать разные проекции
https://projector.tensorflow.org
Cosmograph - самый быстрый, удобный и красивый визуализатор больших графов и эмбеддингов, работает в браузере, интерактивный, умеет в реально большие объемы
https://cosmograph.app
https://cosmograph.app/examples
The Learning Interpretability Tool - интерактивный инструмент чтобы смотреть внутрь модели и эмбеддингов, много всякого показывает в разных режимах, опенсорс
https://pair-code.github.io/lit/
https://github.com/pair-code/lit
https://pair-code.github.io/lit/tutorials/tour/
Arize - llm full stack observability as a service - saas, много инструментов для анализа и отладки целого стека, включая RAG, промпты и тд.
https://arize.com/
=== Снижение размерности (от старого к новому) ===
PCA - часто бывает в разных пакетах, но наименее информативен, только какие-то общие статистики можно им выявить, линейная проекция на главные компоненты
t-SNE - наиболее старый метод нелинейного снижения размерности, медленный и не очень хорошо кластеризует, сегодня наверное он уже не очень нужен
UMAP - поновее, побыстрее, и неплохо выявляет кластеры. размерность целевого пространства произвольна, можно проецировать в 2д, 3д и тд. есть стандартная реализация на питоне, для ускорения использует llvm, довольно проста в использовании. сильно сложную топологию все еще не всегда выделяет - иногда могут быть “разрывы” кластеров, или что-то не удается распутать, также к критике метода относится то что его пытаются интерпретировать как линейную проекцию, хотя расстояния между кластерами ооочень неоднозначны в интерпретации. но чтобы посмотреть “на глаз” что там вообще есть в куче - работает норм и даже некоторая значительная часть глобальной топологии сохраняется.
вот либа: https://umap-learn.readthedocs.io/
вот тут объяснено в картинках как работает, можно поэкспериментировать, как влияют разные параметры, и сравнить с t-SNE: https://pair-code.github.io/understanding-umap/
NCVis - Noise-Contrastive Visualization - алгоритм из класса t-SNE/UMAP но вроде быстрее работает и параллелится, насколько хорошо выявляет структуру не знаю, мне проверить не довелось
https://github.com/stat-ml/ncvis
TDA - следующий, еще более новый класс методов - на основе топологического анализа. тут краткий обзор и сравнение с t-SNE/UMAP: https://datarefiner.com/feed/why-tda
и три реализации:
https://scikit-tda.org/
https://github.com/giotto-ai/giotto-tda
https://github.com/ksanjeevan/mapper-tda
RTD-AE - метод на основе топологического анализа, который в прошлом году разработали коллеги из AIRI и Сколтеха. в статье также есть сравнение с t-SNE/UMAP/TopoAE и некоторыми другими методами. вот его хотелось бы попробовать.
https://arxiv.org/abs/2302.00136
https://github.com/danchern97/RTD_AE
HDBSCAN - кластеризацию лучше проводить после снижения размерности, в исходном многомерном пространстве она глохнет. HDBSCAN работает довольно быстро, на больших данных, и с управляемой гранулярностью. хорошо разделяет всякие сильно кривые кластеры. это на случай если потом надо что-нибудь раскрасить, вывести/выгрузить частями и тп.
https://hdbscan.readthedocs.io/en/latest/
КОМУ НЕ ХВАТИЛО
тут пара обзоров по методам снижения размерности, там больше, детальнее и есть методы других классов:
A survey of dimensionality reduction techniques https://arxiv.org/abs/1403.2877
A Survey of Dimension Reduction Methods for High-dimensional Data Analysis and Visualization https://drops.dagstuhl.de/storage/01oasics/oasics-vol027-vluds2012-irtg1131/OASIcs.VLUDS.2011.135/OASIcs.VLUDS.2011.135.pdf
тут классная лекция по нюансам методов и их настройки (на русском): https://www.youtube.com/watch?v=yKHtbWHP4Fg
=== Визуализация (от простого к сложному) ===
Projector - работает в браузере, отображает в 2д и 3д, поддерживает снижение размерности через PCA, t-SNE, UMAP. скорее для небольших датасетов или выборок, не очень удобный, зато можно быстро поперебирать разные проекции
https://projector.tensorflow.org
Cosmograph - самый быстрый, удобный и красивый визуализатор больших графов и эмбеддингов, работает в браузере, интерактивный, умеет в реально большие объемы
https://cosmograph.app
https://cosmograph.app/examples
The Learning Interpretability Tool - интерактивный инструмент чтобы смотреть внутрь модели и эмбеддингов, много всякого показывает в разных режимах, опенсорс
https://pair-code.github.io/lit/
https://github.com/pair-code/lit
https://pair-code.github.io/lit/tutorials/tour/
Arize - llm full stack observability as a service - saas, много инструментов для анализа и отладки целого стека, включая RAG, промпты и тд.
https://arize.com/
=== Постскриптум ===
Вообще я хочу такую штуку запустить на эмбеддингах статьей с https://www.semanticscholar.org, у них есть хорошо обученные уже и обновляемые, но я пока не смог получить ключ к API. Тогда, если все получится, можно в реальном времени видеть карту направлений исследований, научных школ, перспективных тем.
Вообще я хочу такую штуку запустить на эмбеддингах статьей с https://www.semanticscholar.org, у них есть хорошо обученные уже и обновляемые, но я пока не смог получить ключ к API. Тогда, если все получится, можно в реальном времени видеть карту направлений исследований, научных школ, перспективных тем.