gaia2
продолжение все того же бенча GAIA, у gpt5 около 40%, у sonnet4 35, у kimi k2 20%
Больше тулюза, 800 сценариев, сокращенный 160 сценарный сплит + теперь среды динамические
Paper
продолжение все того же бенча GAIA, у gpt5 около 40%, у sonnet4 35, у kimi k2 20%
Больше тулюза, 800 сценариев, сокращенный 160 сценарный сплит + теперь среды динамические
Paper
Forwarded from Kali Novskaya
🌸Релизим GAIA2 — Агенты в реалистичной среде😘
#nlp #nlp_papers
🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.
🌸Состав GAIA2
В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.
Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
🟣 Execution — способность качественно следовать инструкциям и использовать доступные инструменты и приложения в многоступенчатом плане
🟣 Search — способность к поиску и извлечению информации
🟣 Ambiguity — способность работать с неоднозначной информацией от пользователя
🟣 Adaptability — способность адаптироваться под меняющиеся на лету требования пользователя
Time - способность планировать, исполнять регулярные действия, ожидать
🟣 Noise — способность дойти до результата вопреки лишней, противоречивой инфомации и ошибкам системы
🟣 Agent2Agent — способность коллаборировать с другими агентами в среде
На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.
🌸Agentic Research Environment: зачем нужна симуляционная среда
Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.
К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.
При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.
Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.
Пока что это самый большой агентный бенчмарк на общие способности агентов.
🟣 Leaderboard: https://huggingface.co/spaces/meta-agents-research-environments/leaderboard
🟣 Github: https://github.com/facebookresearch/meta-agents-research-environments
🟣 HF demo: https://huggingface.co/spaces/meta-agents-research-environments/demo
🟣 HF Blogpost: https://huggingface.co/blog/gaia2
🟣 Dataset: https://huggingface.co/datasets/meta-agents-research-environments/gaia2
🟣 Свою модель можно прислать: https://facebookresearch.github.io/meta-agents-research-environments/user_guide/gaia2_evaluation.html
#nlp #nlp_papers
🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.
🌸Состав GAIA2
В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.
Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
Time - способность планировать, исполнять регулярные действия, ожидать
На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.
🌸Agentic Research Environment: зачем нужна симуляционная среда
Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.
К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.
При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.
Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.
Пока что это самый большой агентный бенчмарк на общие способности агентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Протестировал неплохую систему Deep Research:
1. Регаетесь тут https://platform.parallel.ai/play/deep-research
2. Получаете 80$ на счет (UPD. подписчик говорит дали 20$, не знаю как это работает)
3. Выбираете Ultra8x и запускаете поиск по какой-то теме которая вам важна
Штука генерирует отчет на основе тысяч страниц, в моих тестах она рассматривала 10-20 тысяч для генерации отчета
P.S. Один отчет стоит примерно 2.4$
1. Регаетесь тут https://platform.parallel.ai/play/deep-research
2. Получаете 80$ на счет (UPD. подписчик говорит дали 20$, не знаю как это работает)
3. Выбираете Ultra8x и запускаете поиск по какой-то теме которая вам важна
Штука генерирует отчет на основе тысяч страниц, в моих тестах она рассматривала 10-20 тысяч для генерации отчета
P.S. Один отчет стоит примерно 2.4$
💩23🔥17😁2
#промо #промо #промо
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-🍴 100-500к USD
Вакансии:
1. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-
Вакансии:
1. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
Прикинь ты хз синьер тимлид и ты преподаешь в школе курс с хф переведенный челам которые взяли кредит на этот курс чтобы влезть в ит. Типа ты так мало получаешь что готов за 100к такой фигней страдать?
😁125👍26😢18 14 5🔥3💩2🥴1 1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Data Sanity Talks Belgrade — уже 4 октября!
Вас ждет 8+ часов, чтобы узнать новейшие тренды по искусственному интеллекту:
🎤 Практические инсайты от мировых экспертов по актуальным темам AI & ML
👥 Нетворкинг с дата профессионалами и энтузиастами
🗯 Дискуссии о самом важном (и самых веселом!) в сфере AI
☕️ Бесплатные снэки и кофе в течение всего дня
Не упусти свой шанс прокачаться с экспертами из Meta, Microsoft, JetBrains и многими другими!
🗓 4 октября | 12:00 — 22:00
📍 Белград, Startit Centar
🎟 Инфо и билеты: datasanity.dev
🔥 Используйте промокод DATASANITYFLASH25 (действует до 25.09)
Вас ждет 8+ часов, чтобы узнать новейшие тренды по искусственному интеллекту:
🎤 Практические инсайты от мировых экспертов по актуальным темам AI & ML
👥 Нетворкинг с дата профессионалами и энтузиастами
🗯 Дискуссии о самом важном (и самых веселом!) в сфере AI
☕️ Бесплатные снэки и кофе в течение всего дня
Не упусти свой шанс прокачаться с экспертами из Meta, Microsoft, JetBrains и многими другими!
🗓 4 октября | 12:00 — 22:00
📍 Белград, Startit Centar
🎟 Инфо и билеты: datasanity.dev
🔥 Используйте промокод DATASANITYFLASH25 (действует до 25.09)
💩9👍4
Кейс с баном статей на neurips, может быть следствием т.н. войны башен и укладываться в рамки теории «Черных лебедей»
2😁82 16🥴13🔥2 2🤔1