tgoop.com/nn_for_science/2518
Last Update:
🔮📈 Prophet Arena
Бенчмарк на котором LLM предсказывают ещё не случившиеся события из prediction markets. Оценивают по 1−Brier (насколько честно калибрована вероятность) и по Average Return (сколько бы вы заработали при выбранном risk profile).
🤔 Зачем это нам
Обычные тесты - про прошлое. Prophet Arena про то, что происходит в реальном мире: модель ставит на вероятность события до того, как оно совершилось, а лидерборд обновляется по факту.
⚙️ Как устроено
Собирают новости и цены с рынков (контекст одинаковый для всех моделей) → модель выдаёт распределение вероятностей + краткое обоснование → после исхода событие оценивают и обновляют лидерборд.
📊 Две оси
• 1−Brier: выше = лучше калибровка/точность вероятностей (на сайте так и показывают - «1 минус классический Brier»).
• Average Return: симуляция прибыли, если следовать вероятностям модели; на лидерборде можно крутить Risk Aversion (γ) и смотреть, как меняются места.
⚽️ Живой пример
Матч MLS San Diego FC — Toronto FC: o3-mini даёт 30% на Торонто, рынок — 11%. Edge ≈ 3× → ставка $1 превратилась в $9, когда Торонто реально выиграл. Отличная иллюстрация, почему высокий Return может прийти без топового Brier.
✅ Итог
Prophet Arena позволяет смотреть на точность и деньги одновременно - так проще понять, когда модели реально полезны.
Ссылка
Расскажите в комментариях что еще могут предсказывать LLM?
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2518