NN_FOR_SCIENCE Telegram 2489
🤖 Что, если ИИ-модель реально знает, что случится завтра?

Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.

Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.

Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или и обновляет публичную таблицу лидеров.

Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.

Что уже показал лидерборд:
Claude-3 Sonnet (2025c)67 % точных попаданий.
GPT-4.162 %.
DeepSeek-V3≈ 62 %.

Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.

Почему такой подход полезен
Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.

Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.

Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.

Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀

🔗 Ссылка
28👍8🔥3



tgoop.com/nn_for_science/2489
Create:
Last Update:

🤖 Что, если ИИ-модель реально знает, что случится завтра?

Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.

Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.

Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или и обновляет публичную таблицу лидеров.

Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.

Что уже показал лидерборд:
Claude-3 Sonnet (2025c)67 % точных попаданий.
GPT-4.162 %.
DeepSeek-V3≈ 62 %.

Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.

Почему такой подход полезен
Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.

Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.

Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.

Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀

🔗 Ссылка

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2489

View MORE
Open in Telegram


Telegram News

Date: |

More>> 4How to customize a Telegram channel? Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram AI для Всех
FROM American