NN_FOR_SCIENCE Telegram 2518
🔮📈 Prophet Arena

Бенчмарк на котором LLM предсказывают ещё не случившиеся события из prediction markets. Оценивают по 1−Brier (насколько честно калибрована вероятность) и по Average Return (сколько бы вы заработали при выбранном risk profile).

🤔 Зачем это нам
Обычные тесты - про прошлое. Prophet Arena про то, что происходит в реальном мире: модель ставит на вероятность события до того, как оно совершилось, а лидерборд обновляется по факту.

⚙️ Как устроено
Собирают новости и цены с рынков (контекст одинаковый для всех моделей) → модель выдаёт распределение вероятностей + краткое обоснование → после исхода событие оценивают и обновляют лидерборд.

📊 Две оси
1−Brier: выше = лучше калибровка/точность вероятностей (на сайте так и показывают - «1 минус классический Brier»).
Average Return: симуляция прибыли, если следовать вероятностям модели; на лидерборде можно крутить Risk Aversion (γ) и смотреть, как меняются места.

⚽️ Живой пример
Матч MLS San Diego FC — Toronto FC: o3-mini даёт 30% на Торонто, рынок — 11%. Edge ≈ 3× → ставка $1 превратилась в $9, когда Торонто реально выиграл. Отличная иллюстрация, почему высокий Return может прийти без топового Brier.

Итог
Prophet Arena позволяет смотреть на точность и деньги одновременно - так проще понять, когда модели реально полезны.

Ссылка

Расскажите в комментариях что еще могут предсказывать LLM?
🔥14👍86😱1



tgoop.com/nn_for_science/2518
Create:
Last Update:

🔮📈 Prophet Arena

Бенчмарк на котором LLM предсказывают ещё не случившиеся события из prediction markets. Оценивают по 1−Brier (насколько честно калибрована вероятность) и по Average Return (сколько бы вы заработали при выбранном risk profile).

🤔 Зачем это нам
Обычные тесты - про прошлое. Prophet Arena про то, что происходит в реальном мире: модель ставит на вероятность события до того, как оно совершилось, а лидерборд обновляется по факту.

⚙️ Как устроено
Собирают новости и цены с рынков (контекст одинаковый для всех моделей) → модель выдаёт распределение вероятностей + краткое обоснование → после исхода событие оценивают и обновляют лидерборд.

📊 Две оси
1−Brier: выше = лучше калибровка/точность вероятностей (на сайте так и показывают - «1 минус классический Brier»).
Average Return: симуляция прибыли, если следовать вероятностям модели; на лидерборде можно крутить Risk Aversion (γ) и смотреть, как меняются места.

⚽️ Живой пример
Матч MLS San Diego FC — Toronto FC: o3-mini даёт 30% на Торонто, рынок — 11%. Edge ≈ 3× → ставка $1 превратилась в $9, когда Торонто реально выиграл. Отличная иллюстрация, почему высокий Return может прийти без топового Brier.

Итог
Prophet Arena позволяет смотреть на точность и деньги одновременно - так проще понять, когда модели реально полезны.

Ссылка

Расскажите в комментариях что еще могут предсказывать LLM?

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2518

View MORE
Open in Telegram


Telegram News

Date: |

bank east asia october 20 kowloon Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon.
from us


Telegram AI для Всех
FROM American