tgoop.com/machinelearning_books/1146
Last Update:
⚡️ Как честно мерить прогресс ИИ на реально «неразгаданных» задачах
Идея
Модели тестируют не учебные экзамены, а настоящие нерешённые вопросы. Сильные LLM выступают валидаторами: они не пишут ответы, а проверяют кандидатов на корректность.
Как собирали набор задач
1) Отобрали вопросы со Stack Exchange без принятого решения.
2) LLM-судьи отсортировали их по ясности и сложности.
3) Доменные эксперты довели пул до ~500 вопросов.
Критерии отбора для каждого вопроса
— well-definedness: цель и термины однозначны;
— difficulty: нетривиально и для сильных моделей, и для опытных людей;
— approachability: достаточно контекста, чтобы серьёзно попытаться;
— objectiveness: ответ можно проверить без мнений.
Как оценивают модели
Вместо генерации финального ответа модели-валидаторы прогоняют кандидатные решения через факт-чеки, циклы согласованности, повторное судейство и агрегирование (например, по большинству или единогласию).
Данные, ответы, результаты валидаторов и отметки сообщества публикуются на открытой платформе, так что оценивание идёт непрерывно.
Что показали результаты
— Лишь около 15% вопросов проходят автоматическую валидацию.
— По наборам ARC-AGI-2, FrontierMath и Humanity’s Last Exam виден большой зазор до уровня человека: у людей результаты существенно выше.
— Цель — одновременно «сложно и жизненно»: избегать старого компромисса, когда тест либо трудный, либо приближен к реальности, но не оба сразу.
— Во всех моделях судейство (validation) стабильнее генерации: заметен разрыв «генератор vs валидатор».
Почему это важно
Каждый валидированный ответ реально закрывает вопрос, который задал живой человек. Такой бенчмарк поощряет настоящий прогресс, а не натаскивание на синтетические экзамены.
Вывод
Оценивайте LLM на открытых нерешённых задачах и засчитывайте очки только за ответы, которые можно объективно проверить.
Статья: “UQ: Assessing Language Models on Unsolved Questions”
https://arxiv.org/abs/2508.17580
BY Машиннное обучение | Наука о данных Библиотека

Share with your friend now:
tgoop.com/machinelearning_books/1146
