Telegram Web
gaia2

продолжение все того же бенча GAIA, у gpt5 около 40%, у sonnet4 35, у kimi k2 20%

Больше тулюза, 800 сценариев, сокращенный 160 сценарный сплит + теперь среды динамические

Paper
25🔥1
Forwarded from Kali Novskaya
🌸Релизим GAIA2  — Агенты в реалистичной среде😘
#nlp #nlp_papers

🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.

🌸Состав GAIA2

В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.

Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
🟣Execution — способность качественно следовать инструкциям и использовать доступные инструменты и приложения в многоступенчатом плане
🟣Search — способность к поиску и извлечению информации
🟣Ambiguity — способность работать с неоднозначной информацией от пользователя
🟣Adaptability — способность адаптироваться под меняющиеся на лету требования пользователя
Time - способность планировать, исполнять регулярные действия, ожидать
🟣Noise — способность дойти до результата вопреки лишней, противоречивой инфомации и ошибкам системы
🟣Agent2Agent — способность коллаборировать с другими агентами в среде

На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.

🌸Agentic Research Environment: зачем нужна симуляционная среда

Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.

К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.

При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.

Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.

Пока что это самый большой агентный бенчмарк на общие способности агентов.

🟣Leaderboard: https://huggingface.co/spaces/meta-agents-research-environments/leaderboard
🟣Github: https://github.com/facebookresearch/meta-agents-research-environments
🟣HF demo: https://huggingface.co/spaces/meta-agents-research-environments/demo
🟣HF Blogpost: https://huggingface.co/blog/gaia2
🟣Dataset: https://huggingface.co/datasets/meta-agents-research-environments/gaia2

🟣Свою модель можно прислать: https://facebookresearch.github.io/meta-agents-research-environments/user_guide/gaia2_evaluation.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍7
😁14234🍓20💊6🥴44🦄2🙉1
Forwarded from Denis Sexy IT 🤖
Протестировал неплохую систему Deep Research:
1. Регаетесь тут https://platform.parallel.ai/play/deep-research
2. Получаете 80$ на счет (UPD. подписчик говорит дали 20$, не знаю как это работает)
3. Выбираете Ultra8x и запускаете поиск по какой-то теме которая вам важна

Штука генерирует отчет на основе тысяч страниц, в моих тестах она рассматривала 10-20 тысяч для генерации отчета

P.S. Один отчет стоит примерно 2.4$
💩23🔥17😁2
у них всех ХИРШ больше чем у тебя
2165❤‍🔥16🥴8💊6🔥5🍌5😁42👍21
#промо #промо #промо
⚪️ White Circle

Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома

Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
- 🍴 100-500к USD

Вакансии:
1. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
37💩2111🥱3🥴2💅2
Прикинь ты хз синьер тимлид и ты преподаешь в школе курс с хф переведенный челам которые взяли кредит на этот курс чтобы влезть в ит. Типа ты так мало получаешь что готов за 100к такой фигней страдать?
😁125👍26😢18145🔥3💩2🥴11
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Data Sanity Talks Belgrade — уже 4 октября!

Вас ждет 8+ часов, чтобы узнать новейшие тренды по искусственному интеллекту:

🎤 Практические инсайты от мировых экспертов по актуальным темам AI & ML
👥 Нетворкинг с дата профессионалами и энтузиастами
🗯 Дискуссии о самом важном (и самых веселом!) в сфере AI
☕️ Бесплатные снэки и кофе в течение всего дня

Не упусти свой шанс прокачаться с экспертами из Meta, Microsoft, JetBrains и многими другими!

🗓 4 октября | 12:00 — 22:00
📍 Белград, Startit Centar
🎟 Инфо и билеты: datasanity.dev

🔥 Используйте промокод DATASANITYFLASH25 (действует до 25.09)
💩9👍4
парни, после этого возьмут в криптохфтстартап мейкать догекоин?
😁131🔥18💯9🤓6😍4💩3🗿1
Кейс с баном статей на neurips, может быть следствием т.н. войны башен и укладываться в рамки теории «Черных лебедей»
2😁8216🥴13🔥22🤔1
2025/10/12 16:54:56
Back to Top
HTML Embed Code: