#CLeaR2025 Кроме больших конференций на 5000 человек🇨🇳 полезными оказываются и небольшие локальные конференции на 100-200 человек🇨🇭. Содержательно это чем-то похоже на воршкопы при топовых событиях, только на несколько дней и со своим сборником трудов. Недавно завершилась одна из таких конференций, Causal Learning and Reasoning, проходившая в EPFL. Основная тема - каузальные графические модели, в том числе в приложении к методам машинного обучения🤖. Мы здесь представляли свою работу - Relational Object-Centric Actor-Critic про объектно-центричного актора-критика с графической моделью мира.
Среди пленарных докладчиков выделю Elias Bareinboim из Колумбийского университета, который является двигателем каузальных методов ИИ, написал об этом целую книгу и как раз с выдержками из нее делал доклад. Он был аспирантом известного Джуди Пирла и пользовался концепцией трехуровневой иерархии причинно-следственных связей. Оказывается каузальные модели вполне совместимы и с генеративными моделями и с обучением с подкреплением. Последняя тема набиолее интересна, есть целый большой туториал на эту тему, но, к сожалению, дальше простых многоруких бандитов пока это не заходит.
Из устных докладов интересным показался рассказ коллег из Института Макса Планка про алгоритм кауазального сжатия через Колмогоровскую сложность. Был еще стенд с демонстрацией, где показывали великолепно оформленную и задизайненную пару установок для генерации физически обоснованных и контролируемых данных для тестирования разных каузальных моделей.
И как обычно, в заключение несколько постеров с конференции про каузальный вывод.
Среди пленарных докладчиков выделю Elias Bareinboim из Колумбийского университета, который является двигателем каузальных методов ИИ, написал об этом целую книгу и как раз с выдержками из нее делал доклад. Он был аспирантом известного Джуди Пирла и пользовался концепцией трехуровневой иерархии причинно-следственных связей. Оказывается каузальные модели вполне совместимы и с генеративными моделями и с обучением с подкреплением. Последняя тема набиолее интересна, есть целый большой туториал на эту тему, но, к сожалению, дальше простых многоруких бандитов пока это не заходит.
Из устных докладов интересным показался рассказ коллег из Института Макса Планка про алгоритм кауазального сжатия через Колмогоровскую сложность. Был еще стенд с демонстрацией, где показывали великолепно оформленную и задизайненную пару установок для генерации физически обоснованных и контролируемых данных для тестирования разных каузальных моделей.
И как обычно, в заключение несколько постеров с конференции про каузальный вывод.
Forwarded from Институт AIRI
В вузах идёт приём заявок в магистратуру — делимся программами, которые рекомендуют исследователи AIRI ⤵️
🔳 Сколтех
«Науки о данных», «Передовые производственные технологии» и «Современные вычислительные методы»
🔳 МФТИ
«Методы и технологии ИИ» и «Интеллектуальный анализ данных»
🔳 ВШЭ
«Искусственный интеллект», «Математика машинного обучения» и «Науки о данных»
🔳 МГУ
«Компьютерное зрение, графика и обработка изображений»
🔳 Иннополис
«Искусственный интеллект и инженерия данных»
🔳 МТУСИ
«Информатика и вычислительная техника»
🔳 ИТМО
«AI Talent Hub»
Подавайте заявки и отправляйте пост друзьям, которые хотят поступить в магистратуру в этом году 🎓
«Науки о данных», «Передовые производственные технологии» и «Современные вычислительные методы»
«Методы и технологии ИИ» и «Интеллектуальный анализ данных»
«Искусственный интеллект», «Математика машинного обучения» и «Науки о данных»
«Компьютерное зрение, графика и обработка изображений»
«Искусственный интеллект и инженерия данных»
«Информатика и вычислительная техника»
«AI Talent Hub»
Подавайте заявки и отправляйте пост друзьям, которые хотят поступить в магистратуру в этом году 🎓
Please open Telegram to view this post
VIEW IN TELEGRAM
👆Выше как раз указана наша магистерская программа - «Методы и технологии ИИ» - заявки на набор первой волны до конца мая, подавайте! У нас преподают сотрудники AIRI и МФТИ, а темы проектов на передовом краю науки!🦾
cogmodel.mipt.ru
Поступление в МФТИ ФПМИ
Магистратура и аспирантура по искусственному интеллекту с повышеной стипендией в ведущей лаборатории МФТИ ФПМИ
На этой неделе пришли хорошие новости - у нашей команды приняли три статьи 🚀на ведущую конференцию по современным языковым моделям - ACL 2025 (main track):
Статья "CrafText Benchmark: Advancing Language Grounding in Complex Multimodal Open-Ended World" посвящена мультимодальному RL - предложили среду для выполнения инструкций с дообучением и показали, как делать для нее бейзлайны.
Работа "AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment" про набор данных для планирования в робототехнике и определению неоднозначностей в инструкциях, имеет важное прикладное значение для разработки роботов общего назначения.🤖
Про третью работу будет отдельный пост, так как это вообще кандидат на best paper🦾
Статья "CrafText Benchmark: Advancing Language Grounding in Complex Multimodal Open-Ended World" посвящена мультимодальному RL - предложили среду для выполнения инструкций с дообучением и показали, как делать для нее бейзлайны.
Работа "AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment" про набор данных для планирования в робототехнике и определению неоднозначностей в инструкциях, имеет важное прикладное значение для разработки роботов общего назначения.🤖
Про третью работу будет отдельный пост, так как это вообще кандидат на best paper🦾
ACL 2025
The 63rd Annual Meeting of the Association for Computational Linguistics
Vienna, AustriaJuly 27–August 1st, 2025
Forwarded from Институт AIRI
Приглашаем на следующий AIRI Seminars, который пройдет 4 июня в 17:00 ⤵️
⚫️ Тема: «Исследование методов и разработка алгоритмов топологического картирования и локализации».
⚫️ Докладчик: Кирилл Муравьев, аспирант и младший научный сотрудник ФИЦ ИУ РАН, научный сотрудник Центра когнитивного моделирования МФТИ.
⚫️ Оппонент: Александр Катруца, старший научный сотрудник в AIRI и научный сотрудник в Сколтехе.
Подробное описание и регистрация на офлайн-формат на сайте.
YouTube | VK Видео
Подробное описание и регистрация на офлайн-формат на сайте.
YouTube | VK Видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Center for Cognitive Modeling
🎓 — Семинар 30. Роль памяти в обучении с подкреплением: определение, реализация и оценка | Егор Черепанов
Наличие памяти у RL-агентов всё чаще рассматривается как необходимое условие для успешного решения сложных задач. Методы интеграции памяти в архитектуры агентов активно развиваются. Но что именно следует считать памятью, как её формализовать и как оценивать?
На семинаре будет представлена систематизация типов памяти и классов задач, требующих её использования.
Так же Егор рассмотрит подходы к реализации памяти и бенчмарки, предназначенные для оценки эффективности соответствующих механизмов в RL, включая новый бенчмарк MIKASA-Robo, предназначенный для тестирования памяти робота в задачах настольной манипуляции.
Статьи:
https://arxiv.org/abs/2412.06531
https://arxiv.org/abs/2502.10550
https://arxiv.org/abs/2306.09459
👉🏻 Дата: 05.06.25, четверг в 17:00
📹 Трансляция Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #RL #agents
Наличие памяти у RL-агентов всё чаще рассматривается как необходимое условие для успешного решения сложных задач. Методы интеграции памяти в архитектуры агентов активно развиваются. Но что именно следует считать памятью, как её формализовать и как оценивать?
На семинаре будет представлена систематизация типов памяти и классов задач, требующих её использования.
Так же Егор рассмотрит подходы к реализации памяти и бенчмарки, предназначенные для оценки эффективности соответствующих механизмов в RL, включая новый бенчмарк MIKASA-Robo, предназначенный для тестирования памяти робота в задачах настольной манипуляции.
Статьи:
https://arxiv.org/abs/2412.06531
https://arxiv.org/abs/2502.10550
https://arxiv.org/abs/2306.09459
👉🏻 Дата: 05.06.25, четверг в 17:00
📹 Трансляция Youtube или ВК
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #RL #agents
Forwarded from Center for Cognitive Modeling
В ЦКМ мы учим создавать и работать с системами ИИ, которые интегрируют в себе последние достижения в области нейросетей, языковых моделей и робототехники.
С нами вы сможете обучаться на актуальной программе, выезжать на международные конференции, работать над коммерческими и научными проектами, получать высокую стипендию.
Для поступления необходимо:
В ответ на заявку мы напишем вам на указанную почту с приглашением на собеседование, где вы расскажете о себе и сможете обсудить ваши ожидания с менторами Центра.
Больше про поступление читайте в нашем посте и на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Давно не было подборки интересных статей в #digest, но вот несколько примечательных майских работ по нашим текущим научным интересам:
1) Slot-MLLM: наша любимая объектно-центричная тема продолжает развитваться, теперь в направлении мультимодальных моделей. Здесь Slot Attention испоьзуется в качестве эффективного токенизатора на базе Q-former кодировщика. Такой токенизатор позволяет существенно улучшить результаты на визуально-языковых задачах.
2) Reason without External Rewards: использование RL для дообучения LLM и VLM это теперь общее место🥸, но то, как формировать вознаграждение здесь самый интересный вопрос. Оказывается, вознаграждение можно брать виде внутреннего сигнала от языковой модели (как внутренняя мотивация в RND/ICM) как оценку само-уверенности модели в ответах. Разработанный INTUITOR только на таком сигнале оказывается ничем не хуже GRPO на математических бенчмарках🦾.
3) Knowledge Insulating VLA: продолжаю следить за самым передовым робостартапом с ивзестными RL-щиками в составе. Использование больших VLA моделей требует больших ресурсов и сложно сочетается с выполнением действий в реальном времени. Здесь коллеги предложили использовать диффузионного эксперта для генерации действий, который имеет небольшой размер и на нижнем уровне поддерживает непрерывное выполнение действий. Как обычно, показывают много домашних задач, особеноо умилило заправление кровати🛌
4) VLA-RL: товарищи из Цинхуа🇨🇳 предложили очередной фреймворк для онлайн RL дообучения авторегресионных VLA моделей на конкретных задачах. Интересная идея - представить тректории манипуляционных действий робота в виде мультимодального многошагового диалога со средой. Плюс добавили еще обучение специальной модели вознаграждений как в RLHF. Конечно, бьют уже всеми избитые🏌️ Octo и OpenVLA на свежем наборе задач LIBERO.
5) RL Bring to VLA Generalization: продолжая тему того, что делают товарищи в Цинхуа🇨🇳, отмечу еще работу с важным вопросом в заголовке, что добавляет RL при дообучении VLA. В работе проведен довольной качественный анализ разных схем дообучения с PPO, GRPO, DPO. Основной вывод - дообучение, особенно с PPO🥱, приводит у существенному росту обобщающей способности. Ну что, в целом, и было понятно и до этого, но зато теперь с доказательствами.
6) RoboCulture: товарищи из Торонто продолжают двигать в массы нашу тематику AIRoboScientist. На этот раз манипулятор служит для задач автоматизации биологических экспериментов. Протокол эксперимента представлен в виде поведенческого дерева. Но из функций только орудование пипеткой.
7) Continuous Thought Machines: и очередная работа от нашумевшего стартапа Sakana.ai, на этот раз менее хайповая, но неожиданно по интересной нам теме биологически правдоподобных моделей обучения. В статье моделируют нейронную динамику, где синхроинзация нейронов приводит к формирования латентных представлений. Смогли показать на такой гибридной архитектуре разумные результаты на классификации изображений и даже на ответы на вопросы по изображениям. Это уже явно не игрушечный, а вполне масштабируемый пример работы биологически правдоподобных моделей🦾.
1) Slot-MLLM: наша любимая объектно-центричная тема продолжает развитваться, теперь в направлении мультимодальных моделей. Здесь Slot Attention испоьзуется в качестве эффективного токенизатора на базе Q-former кодировщика. Такой токенизатор позволяет существенно улучшить результаты на визуально-языковых задачах.
2) Reason without External Rewards: использование RL для дообучения LLM и VLM это теперь общее место🥸, но то, как формировать вознаграждение здесь самый интересный вопрос. Оказывается, вознаграждение можно брать виде внутреннего сигнала от языковой модели (как внутренняя мотивация в RND/ICM) как оценку само-уверенности модели в ответах. Разработанный INTUITOR только на таком сигнале оказывается ничем не хуже GRPO на математических бенчмарках🦾.
3) Knowledge Insulating VLA: продолжаю следить за самым передовым робостартапом с ивзестными RL-щиками в составе. Использование больших VLA моделей требует больших ресурсов и сложно сочетается с выполнением действий в реальном времени. Здесь коллеги предложили использовать диффузионного эксперта для генерации действий, который имеет небольшой размер и на нижнем уровне поддерживает непрерывное выполнение действий. Как обычно, показывают много домашних задач, особеноо умилило заправление кровати🛌
4) VLA-RL: товарищи из Цинхуа🇨🇳 предложили очередной фреймворк для онлайн RL дообучения авторегресионных VLA моделей на конкретных задачах. Интересная идея - представить тректории манипуляционных действий робота в виде мультимодального многошагового диалога со средой. Плюс добавили еще обучение специальной модели вознаграждений как в RLHF. Конечно, бьют уже всеми избитые🏌️ Octo и OpenVLA на свежем наборе задач LIBERO.
5) RL Bring to VLA Generalization: продолжая тему того, что делают товарищи в Цинхуа🇨🇳, отмечу еще работу с важным вопросом в заголовке, что добавляет RL при дообучении VLA. В работе проведен довольной качественный анализ разных схем дообучения с PPO, GRPO, DPO. Основной вывод - дообучение, особенно с PPO🥱, приводит у существенному росту обобщающей способности. Ну что, в целом, и было понятно и до этого, но зато теперь с доказательствами.
6) RoboCulture: товарищи из Торонто продолжают двигать в массы нашу тематику AIRoboScientist. На этот раз манипулятор служит для задач автоматизации биологических экспериментов. Протокол эксперимента представлен в виде поведенческого дерева. Но из функций только орудование пипеткой.
7) Continuous Thought Machines: и очередная работа от нашумевшего стартапа Sakana.ai, на этот раз менее хайповая, но неожиданно по интересной нам теме биологически правдоподобных моделей обучения. В статье моделируют нейронную динамику, где синхроинзация нейронов приводит к формирования латентных представлений. Смогли показать на такой гибридной архитектуре разумные результаты на классификации изображений и даже на ответы на вопросы по изображениям. Это уже явно не игрушечный, а вполне масштабируемый пример работы биологически правдоподобных моделей🦾.