Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/junkyardmathml/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Math and ML stuff@junkyardmathml P.197
JUNKYARDMATHML Telegram 197
AI Scientist-v2. Автономный AI исследователь. Что внутри?

Вышла статья и репозиторий AI Scientist-v2 - системы для автоматизации научных исследований с полным циклом от генерации идей и реализации экспериментов до написания статьи.

Стартап Sakana AI (Токио), развивает автоматизацию науки. Прошлая итерация их системы AI Scientist-v1 делала ресерч и продуцировала науко-подобные статьи, но результаты были очень сырые и очевидно не достигали уровня для хоть какого-то адекватного внешнего рецензирования, а система частично зависела от человека. Текущая версия полностью автономна и способна генерировать работы хорошего уровня - недавно стало известно, что их ИИ-сгенерированная статья "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization" принята (оценки от рецензентов: 6, 7, 6) на один из ICLR 2025 Воркшопов.

Тут уместно заметить, что это все еще далеко не уровень основного трека ICLR, но сейчас сами по себе воркшопы из A* конф могут быть сопоставимы по уровню с основными треками конф уровня B, а бывает, что статьи с воркшопов и сильно лучше работ из основного трека.

Основные улучшения и методология в AI Scientist-v2:

1. Генерация идей. Автоматически предлагаются разные идеи и гипотезы, и с помощью инструментов Semantic Scholar оценивается их разработанность и актуальность. В прошлой версии пайплайн стартовал с заранее заданного шаблона кода приблизительно определяющего идею и эксперименты, и затем итеративно улучшался. Теперь же система стартует с более абстрактного уровня концептуализации. На выходе этой стадии выдаётся мотивированная гипотеза.

2. Интеграция Vision-Language Model (VLM) для анализа качества графиков и фидбека по ним.

3. Агент-менеджер экспериментов - основная часть системы.

3.1 Менеджер экспериментов. Агент координирует последовательно выполняющиеся этапы:

1) Предварительное создание минимального работающего кода для проверки гипотезы.
2) Оптимизация гипер-параметров для экспов.
3) Проверка гипотезы - запуск итоговых экспериментов.
4) Абляционные исследования - оценка важности разных составляющих.

3.2. Древовидная структура для хождения агента по пространству реализаций. Здесь авторы вдохновляются методом AIDE. Каждый этап (1-4) исследования соответствует дереву. Например, этап 1:

Стартуем с корневого узла гипотезы и через LLM (Claude-3-5) генерируем параллельно несколько дочерних вершин дерева - вариаций Python кода экспериментов и скриптов визуализации. Затем код запускаем в интерпретаторе, по итогу его работы вершины помечаются как non-buggy (успешные) и buggy (ошибочные). Далее порождаем следующее поколение дочерних узлов - от buggy через исправление и от non-buggy через оптимизацию, (новые узлы также non-buggy/buggy) и так далее. Какие узлы достойны перейти в следующее поколение решает LLM. Одновременно могут выполняться несколько узлов (это делает систему параллельной). В конце этапа 1 выбирается наилучший листовой узел и переходит на этап 2 в качестве корневого. И по такой же логике выполняются остальные этапы.

Написание текста: по результатам экспов GPT-o1 пишет LaTeX-файл и GPT-4o над ним "рефлексирует", критикуя, а VLM проверяет графики. В итоге получается готовый текст.

Результаты. Авторами была задана тема воркшопа из его аннотации, получено 20 гипотез, вручную выбрано 3 и далее запущен полностью автоматический процесс генерации для 3х статей. По утверждению авторов, без малейших исправлений статьи напрямую отосланы на рецензирование. Помимо одной принятой, 2 другие получили оценки (3, 7, 4) и (3, 3, 3), т.е. ниже порога принятия, но все равно прилично. Принятая статья сразу же была отозвана — без эксплицитной дискуссии по этой теме публиковать такую работу было бы преждевременно.

Кажется, что пора разрабатывать научную инфраструктуру и делать специальные треки на конфах, где будут выставляться ИИ-сгенерированные статьи и проверятся ИИ-рецензентами. Правда есть ощущение, что в 2024-2025 гг негласно это уже и так происходит.

Здесь больше статей про LLM и геометрию.



tgoop.com/junkyardmathml/197
Create:
Last Update:

AI Scientist-v2. Автономный AI исследователь. Что внутри?

Вышла статья и репозиторий AI Scientist-v2 - системы для автоматизации научных исследований с полным циклом от генерации идей и реализации экспериментов до написания статьи.

Стартап Sakana AI (Токио), развивает автоматизацию науки. Прошлая итерация их системы AI Scientist-v1 делала ресерч и продуцировала науко-подобные статьи, но результаты были очень сырые и очевидно не достигали уровня для хоть какого-то адекватного внешнего рецензирования, а система частично зависела от человека. Текущая версия полностью автономна и способна генерировать работы хорошего уровня - недавно стало известно, что их ИИ-сгенерированная статья "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization" принята (оценки от рецензентов: 6, 7, 6) на один из ICLR 2025 Воркшопов.

Тут уместно заметить, что это все еще далеко не уровень основного трека ICLR, но сейчас сами по себе воркшопы из A* конф могут быть сопоставимы по уровню с основными треками конф уровня B, а бывает, что статьи с воркшопов и сильно лучше работ из основного трека.

Основные улучшения и методология в AI Scientist-v2:

1. Генерация идей. Автоматически предлагаются разные идеи и гипотезы, и с помощью инструментов Semantic Scholar оценивается их разработанность и актуальность. В прошлой версии пайплайн стартовал с заранее заданного шаблона кода приблизительно определяющего идею и эксперименты, и затем итеративно улучшался. Теперь же система стартует с более абстрактного уровня концептуализации. На выходе этой стадии выдаётся мотивированная гипотеза.

2. Интеграция Vision-Language Model (VLM) для анализа качества графиков и фидбека по ним.

3. Агент-менеджер экспериментов - основная часть системы.

3.1 Менеджер экспериментов. Агент координирует последовательно выполняющиеся этапы:

1) Предварительное создание минимального работающего кода для проверки гипотезы.
2) Оптимизация гипер-параметров для экспов.
3) Проверка гипотезы - запуск итоговых экспериментов.
4) Абляционные исследования - оценка важности разных составляющих.

3.2. Древовидная структура для хождения агента по пространству реализаций. Здесь авторы вдохновляются методом AIDE. Каждый этап (1-4) исследования соответствует дереву. Например, этап 1:

Стартуем с корневого узла гипотезы и через LLM (Claude-3-5) генерируем параллельно несколько дочерних вершин дерева - вариаций Python кода экспериментов и скриптов визуализации. Затем код запускаем в интерпретаторе, по итогу его работы вершины помечаются как non-buggy (успешные) и buggy (ошибочные). Далее порождаем следующее поколение дочерних узлов - от buggy через исправление и от non-buggy через оптимизацию, (новые узлы также non-buggy/buggy) и так далее. Какие узлы достойны перейти в следующее поколение решает LLM. Одновременно могут выполняться несколько узлов (это делает систему параллельной). В конце этапа 1 выбирается наилучший листовой узел и переходит на этап 2 в качестве корневого. И по такой же логике выполняются остальные этапы.

Написание текста: по результатам экспов GPT-o1 пишет LaTeX-файл и GPT-4o над ним "рефлексирует", критикуя, а VLM проверяет графики. В итоге получается готовый текст.

Результаты. Авторами была задана тема воркшопа из его аннотации, получено 20 гипотез, вручную выбрано 3 и далее запущен полностью автоматический процесс генерации для 3х статей. По утверждению авторов, без малейших исправлений статьи напрямую отосланы на рецензирование. Помимо одной принятой, 2 другие получили оценки (3, 7, 4) и (3, 3, 3), т.е. ниже порога принятия, но все равно прилично. Принятая статья сразу же была отозвана — без эксплицитной дискуссии по этой теме публиковать такую работу было бы преждевременно.

Кажется, что пора разрабатывать научную инфраструктуру и делать специальные треки на конфах, где будут выставляться ИИ-сгенерированные статьи и проверятся ИИ-рецензентами. Правда есть ощущение, что в 2024-2025 гг негласно это уже и так происходит.

Здесь больше статей про LLM и геометрию.

BY Math and ML stuff




Share with your friend now:
tgoop.com/junkyardmathml/197

View MORE
Open in Telegram


Telegram News

Date: |

Write your hashtags in the language of your target audience. The Standard Channel How to Create a Private or Public Channel on Telegram? Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more.
from us


Telegram Math and ML stuff
FROM American