Math and ML stuff@junkyardmathml P.197

Math and ML stuff

AI Scientist-v2. Автономный AI исследователь. Что внутри?

Вышла статья и репозиторий AI Scientist-v2 - системы для автоматизации научных исследований с полным циклом от генерации идей и реализации экспериментов до написания статьи.

Стартап Sakana AI (Токио), развивает автоматизацию науки. Прошлая итерация их системы AI Scientist-v1 делала ресерч и продуцировала науко-подобные статьи, но результаты были очень сырые и очевидно не достигали уровня для хоть какого-то адекватного внешнего рецензирования, а система частично зависела от человека. Текущая версия полностью автономна и способна генерировать работы хорошего уровня - недавно стало известно, что их ИИ-сгенерированная статья "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization" принята (оценки от рецензентов: 6, 7, 6) на один из ICLR 2025 Воркшопов.

Тут уместно заметить, что это все еще далеко не уровень основного трека ICLR, но сейчас сами по себе воркшопы из A* конф могут быть сопоставимы по уровню с основными треками конф уровня B, а бывает, что статьи с воркшопов и сильно лучше работ из основного трека.

Основные улучшения и методология в AI Scientist-v2:

1. Генерация идей. Автоматически предлагаются разные идеи и гипотезы, и с помощью инструментов Semantic Scholar оценивается их разработанность и актуальность. В прошлой версии пайплайн стартовал с заранее заданного шаблона кода приблизительно определяющего идею и эксперименты, и затем итеративно улучшался. Теперь же система стартует с более абстрактного уровня концептуализации. На выходе этой стадии выдаётся мотивированная гипотеза.

2. Интеграция Vision-Language Model (VLM) для анализа качества графиков и фидбека по ним.

3. Агент-менеджер экспериментов - основная часть системы.

3.1 Менеджер экспериментов. Агент координирует последовательно выполняющиеся этапы:

1) Предварительное создание минимального работающего кода для проверки гипотезы.
2) Оптимизация гипер-параметров для экспов.
3) Проверка гипотезы - запуск итоговых экспериментов.
4) Абляционные исследования - оценка важности разных составляющих.

3.2. Древовидная структура для хождения агента по пространству реализаций. Здесь авторы вдохновляются методом AIDE. Каждый этап (1-4) исследования соответствует дереву. Например, этап 1:

Стартуем с корневого узла гипотезы и через LLM (Claude-3-5) генерируем параллельно несколько дочерних вершин дерева - вариаций Python кода экспериментов и скриптов визуализации. Затем код запускаем в интерпретаторе, по итогу его работы вершины помечаются как non-buggy (успешные) и buggy (ошибочные). Далее порождаем следующее поколение дочерних узлов - от buggy через исправление и от non-buggy через оптимизацию, (новые узлы также non-buggy/buggy) и так далее. Какие узлы достойны перейти в следующее поколение решает LLM. Одновременно могут выполняться несколько узлов (это делает систему параллельной). В конце этапа 1 выбирается наилучший листовой узел и переходит на этап 2 в качестве корневого. И по такой же логике выполняются остальные этапы.

Написание текста: по результатам экспов GPT-o1 пишет LaTeX-файл и GPT-4o над ним "рефлексирует", критикуя, а VLM проверяет графики. В итоге получается готовый текст.

Результаты. Авторами была задана тема воркшопа из его аннотации, получено 20 гипотез, вручную выбрано 3 и далее запущен полностью автоматический процесс генерации для 3х статей. По утверждению авторов, без малейших исправлений статьи напрямую отосланы на рецензирование. Помимо одной принятой, 2 другие получили оценки (3, 7, 4) и (3, 3, 3), т.е. ниже порога принятия, но все равно прилично. Принятая статья сразу же была отозвана — без эксплицитной дискуссии по этой теме публиковать такую работу было бы преждевременно.

Кажется, что пора разрабатывать научную инфраструктуру и делать специальные треки на конфах, где будут выставляться ИИ-сгенерированные статьи и проверятся ИИ-рецензентами. Правда есть ощущение, что в 2024-2025 гг негласно это уже и так происходит.

Здесь больше статей про LLM и геометрию.

www.tgoop.com/junkyardmathml/197

689 viewsedited Apr 8 at 20:12

tgoop.com/junkyardmathml/197

Create: 2025-04-08
Last Update: 2025-06-01 17:38:16

BY Math and ML stuff

Share with your friend now:
tgoop.com/junkyardmathml/197

Telegram News

AI Scientist-v2. Автономный AI исследователь. Что внутри?