JUNKYARDMATHML Telegram 182
Measure of AGI

Abstraction and Reasoning Corpus (ARC) - бенчмарк, предложенный Франсуа Шолле, для измерения "интеллекта" и способность к ризонингу у ИИ-системы, ARC оценивает обобщение и адаптацию к новым задачам, но в условиях минимума тренировочных примеров (3-4 на одну задачу).
ARC задачи похожи на визуальные головоломки типа IQ-тестов: сетка N x N, и квадратики разных цветов на ней. Даётся несколько примеров с входным/выходным состоянием сетки для обнаружения паттернов трансформации, нужно предсказать выходное состояние по новому тестовому примеру. Каждый тип задачи определяется новым паттерном трансформации. Для успешного прохождения теста нужны когнитивные навыки обобщения, мышления по аналогии, пространственное геометрическое мышление итд. Порешать такие тесты и сделать новые можно с помощью o2arc. Среди ARC-подобных упрощенных датасетов есть 1D-ARC - не для сеток, а для линий, Mini-ARC ограничивает сетку размером 5х5.

Структура. Датасет разбит на 400 простых примеров train, 400 более сложных eval и 200 private (по заявлению Шолле совсем мудрёных) примеров.

ARC Prize. В августе был запущен ARC Prize 2024 на Kaggle с призовым фондом 1млн $. Тут подробнее. Однако за 2,5 месяца в лидерборде никто не добрался даже до 50% на private score. На 1-м месте загадочные MindsAI c 49%. До AGI далеко, но проблема в том, что и человек не очень успешен в решении ARC. Организаторы утверждают, что человек решает на 85%, поэтому поставили эту границу для завершения соревнования, но тестировались люди на небольшом подмножестве ARC. А исследование H-ARC тестирует людей на всем ARC и репортит: 76% на train, и 64% на eval. Интересно, что лишь несколько людей решили все на 99%.

LLM не справляются. За последние 2-3 года появилось очень много подходов к решению АРК. В том числе и на основе LLM, которые показывают чудовищно низкий перформанс: на train выборке GPT-o1 = 22%, Claude 3.5 = 21%, Gemini 1.5 = 8%. По правилам решение не должно основываться на доступе к API, поэтому LLM не могут претендовать на участие в Kaggle Prize, поэтому для них есть отдельный лидерборд.
В исследовании Reasoning Abilities of LLMs.. сделан критический стресс-тест не-способности LLM к ризонинговым паттернам для ARC, тестируются разныe промпты и прослеживают промежуточные шаги в рассуждениях.

Как решать? Большинство работ рассматривают задачу ARC, как задачу синтеза программ и поиска алгоритмов. Для успешного решения нужен хороший Domains Specific Language (DSL) для манипуляции с разноцветной сеткой. Как мне кажется, идеальное решение должно использовать синергию DSL+LLM+классический подход.

CodeIt. Авторы замечают, что для подобных задач есть эффект редкого вознаграждения, т.е. далеко не всегда генерируется программа с нужным ответом, но если программа синтактически верна, этот опыт нужно стараться использовать. Codeit работает итеративно: 1) семплирование из T5Code программ, если они исполнимы, но ответ неверный, все равно маркируем их как правильные 2) обучение генерировать новые программы с учетом приоретизированного опыта.
Eval acc 16%.

HYSYNTH. Предлагается гибридный поиск программ, руководствующийся LLM. Сначала конструируем DSL с учетом стохастической контекстно-свободной грамматики (CFG), которая аппроксимирует условное выходное распределение из GPT-4о для конкретной задачи, запоминая шаблоны и правила вывода, которые LLM применяет для синтеза программ. Затем с помощью Bottom-Up синтеза строятся алгоритмы с учетом вероятностной CFG, что ограничивает пространство поиска. Точность 58%, но на подмножестве ARC.

На Less Wrong предложено прямолинейное и ресурсоёмкое решение на основе GPT-4o: генерируем 8к программ для каждой задачи, лучшие из них запускаем на тесте, acc 42%.

А можно без LLM? Среди других подходов хочется выделить DreamCoder (секретная темная неизвестная технология) — нейросимвольный ризонинг для синтеза программ со своим DSL, он ансамблируется с LLM и другим DSL, 40% на eval. И еще решение в сеттинге RL и World Modeling основе DreamerV3.

11 ноября завершение ARC Prize 2024. Всем идти решать



tgoop.com/junkyardmathml/182
Create:
Last Update:

Measure of AGI

Abstraction and Reasoning Corpus (ARC) - бенчмарк, предложенный Франсуа Шолле, для измерения "интеллекта" и способность к ризонингу у ИИ-системы, ARC оценивает обобщение и адаптацию к новым задачам, но в условиях минимума тренировочных примеров (3-4 на одну задачу).
ARC задачи похожи на визуальные головоломки типа IQ-тестов: сетка N x N, и квадратики разных цветов на ней. Даётся несколько примеров с входным/выходным состоянием сетки для обнаружения паттернов трансформации, нужно предсказать выходное состояние по новому тестовому примеру. Каждый тип задачи определяется новым паттерном трансформации. Для успешного прохождения теста нужны когнитивные навыки обобщения, мышления по аналогии, пространственное геометрическое мышление итд. Порешать такие тесты и сделать новые можно с помощью o2arc. Среди ARC-подобных упрощенных датасетов есть 1D-ARC - не для сеток, а для линий, Mini-ARC ограничивает сетку размером 5х5.

Структура. Датасет разбит на 400 простых примеров train, 400 более сложных eval и 200 private (по заявлению Шолле совсем мудрёных) примеров.

ARC Prize. В августе был запущен ARC Prize 2024 на Kaggle с призовым фондом 1млн $. Тут подробнее. Однако за 2,5 месяца в лидерборде никто не добрался даже до 50% на private score. На 1-м месте загадочные MindsAI c 49%. До AGI далеко, но проблема в том, что и человек не очень успешен в решении ARC. Организаторы утверждают, что человек решает на 85%, поэтому поставили эту границу для завершения соревнования, но тестировались люди на небольшом подмножестве ARC. А исследование H-ARC тестирует людей на всем ARC и репортит: 76% на train, и 64% на eval. Интересно, что лишь несколько людей решили все на 99%.

LLM не справляются. За последние 2-3 года появилось очень много подходов к решению АРК. В том числе и на основе LLM, которые показывают чудовищно низкий перформанс: на train выборке GPT-o1 = 22%, Claude 3.5 = 21%, Gemini 1.5 = 8%. По правилам решение не должно основываться на доступе к API, поэтому LLM не могут претендовать на участие в Kaggle Prize, поэтому для них есть отдельный лидерборд.
В исследовании Reasoning Abilities of LLMs.. сделан критический стресс-тест не-способности LLM к ризонинговым паттернам для ARC, тестируются разныe промпты и прослеживают промежуточные шаги в рассуждениях.

Как решать? Большинство работ рассматривают задачу ARC, как задачу синтеза программ и поиска алгоритмов. Для успешного решения нужен хороший Domains Specific Language (DSL) для манипуляции с разноцветной сеткой. Как мне кажется, идеальное решение должно использовать синергию DSL+LLM+классический подход.

CodeIt. Авторы замечают, что для подобных задач есть эффект редкого вознаграждения, т.е. далеко не всегда генерируется программа с нужным ответом, но если программа синтактически верна, этот опыт нужно стараться использовать. Codeit работает итеративно: 1) семплирование из T5Code программ, если они исполнимы, но ответ неверный, все равно маркируем их как правильные 2) обучение генерировать новые программы с учетом приоретизированного опыта.
Eval acc 16%.

HYSYNTH. Предлагается гибридный поиск программ, руководствующийся LLM. Сначала конструируем DSL с учетом стохастической контекстно-свободной грамматики (CFG), которая аппроксимирует условное выходное распределение из GPT-4о для конкретной задачи, запоминая шаблоны и правила вывода, которые LLM применяет для синтеза программ. Затем с помощью Bottom-Up синтеза строятся алгоритмы с учетом вероятностной CFG, что ограничивает пространство поиска. Точность 58%, но на подмножестве ARC.

На Less Wrong предложено прямолинейное и ресурсоёмкое решение на основе GPT-4o: генерируем 8к программ для каждой задачи, лучшие из них запускаем на тесте, acc 42%.

А можно без LLM? Среди других подходов хочется выделить DreamCoder (секретная темная неизвестная технология) — нейросимвольный ризонинг для синтеза программ со своим DSL, он ансамблируется с LLM и другим DSL, 40% на eval. И еще решение в сеттинге RL и World Modeling основе DreamerV3.

11 ноября завершение ARC Prize 2024. Всем идти решать

BY Math and ML stuff


Share with your friend now:
tgoop.com/junkyardmathml/182

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. Click “Save” ; Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. 3How to create a Telegram channel?
from us


Telegram Math and ML stuff
FROM American