tgoop.com/junkyardmathml/182
Last Update:
Measure of AGI
Abstraction and Reasoning Corpus (ARC) - бенчмарк, предложенный Франсуа Шолле, для измерения "интеллекта" и способность к ризонингу у ИИ-системы, ARC оценивает обобщение и адаптацию к новым задачам, но в условиях минимума тренировочных примеров (3-4 на одну задачу).
ARC задачи похожи на визуальные головоломки типа IQ-тестов: сетка N x N, и квадратики разных цветов на ней. Даётся несколько примеров с входным/выходным состоянием сетки для обнаружения паттернов трансформации, нужно предсказать выходное состояние по новому тестовому примеру. Каждый тип задачи определяется новым паттерном трансформации. Для успешного прохождения теста нужны когнитивные навыки обобщения, мышления по аналогии, пространственное геометрическое мышление итд. Порешать такие тесты и сделать новые можно с помощью o2arc. Среди ARC-подобных упрощенных датасетов есть 1D-ARC - не для сеток, а для линий, Mini-ARC ограничивает сетку размером 5х5.
Структура. Датасет разбит на 400 простых примеров train, 400 более сложных eval и 200 private (по заявлению Шолле совсем мудрёных) примеров.
ARC Prize. В августе был запущен ARC Prize 2024 на Kaggle с призовым фондом 1млн $. Тут подробнее. Однако за 2,5 месяца в лидерборде никто не добрался даже до 50% на private score. На 1-м месте загадочные MindsAI c 49%. До AGI далеко, но проблема в том, что и человек не очень успешен в решении ARC. Организаторы утверждают, что человек решает на 85%, поэтому поставили эту границу для завершения соревнования, но тестировались люди на небольшом подмножестве ARC. А исследование H-ARC тестирует людей на всем ARC и репортит: 76% на train, и 64% на eval. Интересно, что лишь несколько людей решили все на 99%.
LLM не справляются. За последние 2-3 года появилось очень много подходов к решению АРК. В том числе и на основе LLM, которые показывают чудовищно низкий перформанс: на train выборке GPT-o1 = 22%, Claude 3.5 = 21%, Gemini 1.5 = 8%. По правилам решение не должно основываться на доступе к API, поэтому LLM не могут претендовать на участие в Kaggle Prize, поэтому для них есть отдельный лидерборд.
В исследовании Reasoning Abilities of LLMs.. сделан критический стресс-тест не-способности LLM к ризонинговым паттернам для ARC, тестируются разныe промпты и прослеживают промежуточные шаги в рассуждениях.
Как решать? Большинство работ рассматривают задачу ARC, как задачу синтеза программ и поиска алгоритмов. Для успешного решения нужен хороший Domains Specific Language (DSL) для манипуляции с разноцветной сеткой. Как мне кажется, идеальное решение должно использовать синергию DSL+LLM+классический подход.
CodeIt. Авторы замечают, что для подобных задач есть эффект редкого вознаграждения, т.е. далеко не всегда генерируется программа с нужным ответом, но если программа синтактически верна, этот опыт нужно стараться использовать. Codeit работает итеративно: 1) семплирование из T5Code программ, если они исполнимы, но ответ неверный, все равно маркируем их как правильные 2) обучение генерировать новые программы с учетом приоретизированного опыта.
Eval acc 16%.
HYSYNTH. Предлагается гибридный поиск программ, руководствующийся LLM. Сначала конструируем DSL с учетом стохастической контекстно-свободной грамматики (CFG), которая аппроксимирует условное выходное распределение из GPT-4о для конкретной задачи, запоминая шаблоны и правила вывода, которые LLM применяет для синтеза программ. Затем с помощью Bottom-Up синтеза строятся алгоритмы с учетом вероятностной CFG, что ограничивает пространство поиска. Точность 58%, но на подмножестве ARC.
На Less Wrong предложено прямолинейное и ресурсоёмкое решение на основе GPT-4o: генерируем 8к программ для каждой задачи, лучшие из них запускаем на тесте, acc 42%.
А можно без LLM? Среди других подходов хочется выделить DreamCoder (секретная темная неизвестная технология) — нейросимвольный ризонинг для синтеза программ со своим DSL, он ансамблируется с LLM и другим DSL, 40% на eval. И еще решение в сеттинге RL и World Modeling основе DreamerV3.
11 ноября завершение ARC Prize 2024. Всем идти решать
BY Math and ML stuff
Share with your friend now:
tgoop.com/junkyardmathml/182