MACHINELEARNING_BOOKS Telegram 1146
⚡️ Как честно мерить прогресс ИИ на реально «неразгаданных» задачах

Идея
Модели тестируют не учебные экзамены, а настоящие нерешённые вопросы. Сильные LLM выступают валидаторами: они не пишут ответы, а проверяют кандидатов на корректность.

Как собирали набор задач
1) Отобрали вопросы со Stack Exchange без принятого решения.
2) LLM-судьи отсортировали их по ясности и сложности.
3) Доменные эксперты довели пул до ~500 вопросов.

Критерии отбора для каждого вопроса
— well-definedness: цель и термины однозначны;
— difficulty: нетривиально и для сильных моделей, и для опытных людей;
— approachability: достаточно контекста, чтобы серьёзно попытаться;
— objectiveness: ответ можно проверить без мнений.

Как оценивают модели
Вместо генерации финального ответа модели-валидаторы прогоняют кандидатные решения через факт-чеки, циклы согласованности, повторное судейство и агрегирование (например, по большинству или единогласию).
Данные, ответы, результаты валидаторов и отметки сообщества публикуются на открытой платформе, так что оценивание идёт непрерывно.

Что показали результаты
— Лишь около 15% вопросов проходят автоматическую валидацию.
— По наборам ARC-AGI-2, FrontierMath и Humanity’s Last Exam виден большой зазор до уровня человека: у людей результаты существенно выше.
— Цель — одновременно «сложно и жизненно»: избегать старого компромисса, когда тест либо трудный, либо приближен к реальности, но не оба сразу.
— Во всех моделях судейство (validation) стабильнее генерации: заметен разрыв «генератор vs валидатор».

Почему это важно
Каждый валидированный ответ реально закрывает вопрос, который задал живой человек. Такой бенчмарк поощряет настоящий прогресс, а не натаскивание на синтетические экзамены.

Вывод
Оценивайте LLM на открытых нерешённых задачах и засчитывайте очки только за ответы, которые можно объективно проверить.

Статья: “UQ: Assessing Language Models on Unsolved Questions”
https://arxiv.org/abs/2508.17580
5👍2🔥2



tgoop.com/machinelearning_books/1146
Create:
Last Update:

⚡️ Как честно мерить прогресс ИИ на реально «неразгаданных» задачах

Идея
Модели тестируют не учебные экзамены, а настоящие нерешённые вопросы. Сильные LLM выступают валидаторами: они не пишут ответы, а проверяют кандидатов на корректность.

Как собирали набор задач
1) Отобрали вопросы со Stack Exchange без принятого решения.
2) LLM-судьи отсортировали их по ясности и сложности.
3) Доменные эксперты довели пул до ~500 вопросов.

Критерии отбора для каждого вопроса
— well-definedness: цель и термины однозначны;
— difficulty: нетривиально и для сильных моделей, и для опытных людей;
— approachability: достаточно контекста, чтобы серьёзно попытаться;
— objectiveness: ответ можно проверить без мнений.

Как оценивают модели
Вместо генерации финального ответа модели-валидаторы прогоняют кандидатные решения через факт-чеки, циклы согласованности, повторное судейство и агрегирование (например, по большинству или единогласию).
Данные, ответы, результаты валидаторов и отметки сообщества публикуются на открытой платформе, так что оценивание идёт непрерывно.

Что показали результаты
— Лишь около 15% вопросов проходят автоматическую валидацию.
— По наборам ARC-AGI-2, FrontierMath и Humanity’s Last Exam виден большой зазор до уровня человека: у людей результаты существенно выше.
— Цель — одновременно «сложно и жизненно»: избегать старого компромисса, когда тест либо трудный, либо приближен к реальности, но не оба сразу.
— Во всех моделях судейство (validation) стабильнее генерации: заметен разрыв «генератор vs валидатор».

Почему это важно
Каждый валидированный ответ реально закрывает вопрос, который задал живой человек. Такой бенчмарк поощряет настоящий прогресс, а не натаскивание на синтетические экзамены.

Вывод
Оценивайте LLM на открытых нерешённых задачах и засчитывайте очки только за ответы, которые можно объективно проверить.

Статья: “UQ: Assessing Language Models on Unsolved Questions”
https://arxiv.org/abs/2508.17580

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1146

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Step-by-step tutorial on desktop: Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American