#ICLR2025 И заключительная неструктурированная случная выборка постеров на тему embodiment, MBRL и LLM planning с третьего дня конференции👋
#ICLR2025 И заключительная неструктурированная случная выборка постеров на тему embodiment, MBRL и LLM planning с третьего дня конференции👋
#ICLR2025 Многие считают, что самая интересная часть конференции - это воркшопы. Во многом так и есть. На воркшопах предполагается обсуждение еще не проверенных, но интересных идей. Туда приглашают спикеров на более узкие темы, да и в целом собираются коллеги из одной специализированной области. После основной конференции как раз было два дня воркшопов. Я поучаствовал в двух из них.
Первый - Reasoning and Planning for Large Language Models был посвящен как раз разным техникам для улчшения способностей LLM к планированию и рассуждению. Мы тоже там презентовали нашу работу - LookPlanGraph, что добавило Россию в общую статистику воркшопа🦾 Первый пленарный спикер был Yuandong Tian из FAIR рассказывал про унификацию символьных и нейросетевых моделей для принятия решения (та самая нейросимвольная интеграция😉). Рассказал про линейку их моделей, использущих внутри трансформера обычный алгоритм поиска типа A* - Searchformer v1, v2 и v3. Упомянул и их модель Coconut с рассуждениями в латентах, но как мы уже сами проверили - работает она так себе. Еще из этого воркшопа отмечу Junxian He с темой «Taming Reinforcement Learning for Effective and Efficient Reasoners», где он подробно проанализировал особенности RL дообучения и заодно представил свой групповой подход.
Первый - Reasoning and Planning for Large Language Models был посвящен как раз разным техникам для улчшения способностей LLM к планированию и рассуждению. Мы тоже там презентовали нашу работу - LookPlanGraph, что добавило Россию в общую статистику воркшопа🦾 Первый пленарный спикер был Yuandong Tian из FAIR рассказывал про унификацию символьных и нейросетевых моделей для принятия решения (та самая нейросимвольная интеграция😉). Рассказал про линейку их моделей, использущих внутри трансформера обычный алгоритм поиска типа A* - Searchformer v1, v2 и v3. Упомянул и их модель Coconut с рассуждениями в латентах, но как мы уже сами проверили - работает она так себе. Еще из этого воркшопа отмечу Junxian He с темой «Taming Reinforcement Learning for Effective and Efficient Reasoners», где он подробно проанализировал особенности RL дообучения и заодно представил свой групповой подход.