tgoop.com/opendatascience/2528
Create:
Last Update:
Last Update:
AI, который создаёт архитектуры, которые создают
Учёные из Шанхайского университета разработали ASI-ARCH — экспериментальную систему для исследований в области AI. Она уже открыла 106 новых SOTA-архитектур. В отличие от AutoML и NAS, которые требуют постоянного вмешательства человека — ввода различных параметров, корректировки гипотез, анализа результатов — ASI-ARCH работает полностью автономно.
Процесс поиска архитектур включал несколько этапов:
➡️ генерация гипотез — обучение моделей (20 млн параметров) на 1 млрд токенов и отбор тех, что по бенчмаркам (точность и производительность) превзошли базовую гибридную архитектуру DeltaNet для обработки последовательностей➡️ верификация — масштабирование отобранных моделей до 340 млн параметров, удаление слишком сложных архитектур. Итог — 106 новых SOTA-архитектур➡️ финальный этап — обучение пяти лучших моделей на 15 млрд токенов и сравнение с флагманами
Одна из лучших архитектур, найденных ASI-ARCH, набрала в тестах 48,51 балла, обойдя лидеров по работе с длинными последовательностями — Mamba2 (47,84) и Gated DeltaNet (47,32).
Где система находит идеи?
Она улучшает проверенные методы вроде гейтинга и свёртки. Это напоминает подход учёных, которые совершенствуют уже существующие теории.
51,7% идей взяты из научной литературы
38,2% — из анализа прошлых экспериментов
10,1% — оригинальные идеи
ASI-ARCH доказала, что AI может не только копировать, но и самостоятельно развивать существующие решения, открывая новые архитектуры.
❤️ — сверхинтеллект всё ближе
🤔 — это лишь прокаченный инструмент