Love. Death. Transformers. 9789

🔥15🤔6👍2🦄1

7.25K viewsedited 11:59

gaia2

продолжение все того же бенча GAIA, у gpt5 около 40%, у sonnet4 35, у kimi k2 20%

Больше тулюза, 800 сценариев, сокращенный 160 сценарный сплит + теперь среды динамические

Paper

25🔥1

7.14K views14:53

Love. Death. Transformers.

Forwarded from Kali Novskaya

🌸Релизим GAIA2 — Агенты в реалистичной среде😘
#nlp #nlp_papers

🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.

🌸Состав GAIA2

В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.

Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
🟣Execution — способность качественно следовать инструкциям и использовать доступные инструменты и приложения в многоступенчатом плане
🟣Search — способность к поиску и извлечению информации
🟣Ambiguity — способность работать с неоднозначной информацией от пользователя
🟣Adaptability — способность адаптироваться под меняющиеся на лету требования пользователя
Time - способность планировать, исполнять регулярные действия, ожидать
🟣Noise — способность дойти до результата вопреки лишней, противоречивой инфомации и ошибкам системы
🟣Agent2Agent — способность коллаборировать с другими агентами в среде

На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.

🌸Agentic Research Environment: зачем нужна симуляционная среда

Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.

К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.

При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.

Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.

Пока что это самый большой агентный бенчмарк на общие способности агентов.

🟣Leaderboard: https://huggingface.co/spaces/meta-agents-research-environments/leaderboard
🟣Github: https://github.com/facebookresearch/meta-agents-research-environments
🟣HF demo: https://huggingface.co/spaces/meta-agents-research-environments/demo
🟣HF Blogpost: https://huggingface.co/blog/gaia2
🟣Dataset: https://huggingface.co/datasets/meta-agents-research-environments/gaia2

🟣Свою модель можно прислать: https://facebookresearch.github.io/meta-agents-research-environments/user_guide/gaia2_evaluation.html

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

11👍7

6.42K views15:03

Love. Death. Transformers.

😁14234🍓20💊6🥴44🦄2🙉1

9.49K views17:33

Love. Death. Transformers.

Forwarded from Denis Sexy IT 🤖

Протестировал неплохую систему Deep Research:
1. Регаетесь тут https://platform.parallel.ai/play/deep-research
2. Получаете 80$ на счет (UPD. подписчик говорит дали 20$, не знаю как это работает)
3. Выбираете Ultra8x и запускаете поиск по какой-то теме которая вам важна

Штука генерирует отчет на основе тысяч страниц, в моих тестах она рассматривала 10-20 тысяч для генерации отчета

P.S. Один отчет стоит примерно 2.4$

💩23🔥17😁2

5.73K views07:38

Love. Death. Transformers.

у них всех ХИРШ больше чем у тебя

2165❤‍🔥16🥴8💊6🔥5🍌5😁4⚡2👍21

9.33K views08:08

Love. Death. Transformers.

#промо #промо #промо
⚪️ White Circle

Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома

Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
- 🍴 100-500к USD

Вакансии:
1. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

📨 CV → https://forms.gle/XysjrjHgxiRicGsb6

Please open Telegram to view this post

VIEW IN TELEGRAM

37💩2111🥱3🥴2💅2

8.54K viewsedited 16:30

Love. Death. Transformers.

Прикинь ты хз синьер тимлид и ты преподаешь в школе курс с хф переведенный челам которые взяли кредит на этот курс чтобы влезть в ит. Типа ты так мало получаешь что готов за 100к такой фигней страдать?

😁125👍26😢18145🔥3💩2🥴11

8.43K viewsedited 17:47

Love. Death. Transformers.

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Data Sanity Talks Belgrade — уже 4 октября!

Вас ждет 8+ часов, чтобы узнать новейшие тренды по искусственному интеллекту:

🎤 Практические инсайты от мировых экспертов по актуальным темам AI & ML
👥 Нетворкинг с дата профессионалами и энтузиастами
🗯 Дискуссии о самом важном (и самых веселом!) в сфере AI
☕️ Бесплатные снэки и кофе в течение всего дня

Не упусти свой шанс прокачаться с экспертами из Meta, Microsoft, JetBrains и многими другими!

🗓 4 октября | 12:00 — 22:00
📍 Белград, Startit Centar
🎟 Инфо и билеты: datasanity.dev

🔥 Используйте промокод DATASANITYFLASH25 (действует до 25.09)

💩9👍4

7.7K views18:00

Love. Death. Transformers.

парни, после этого возьмут в криптохфтстартап мейкать догекоин?

😁131🔥18💯9🤓6😍4💩3🗿1

8.21K views18:49

Love. Death. Transformers.

Кейс с баном статей на neurips, может быть следствием т.н. войны башен и укладываться в рамки теории «Черных лебедей»

2😁8216🥴13🔥22🤔1

7.51K views07:40

2025/10/12 16:54:56
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>