tgoop.com/neuraldeep/1289
Last Update:
Operator (Openai) vs Open Source: зачем нам вообще AI-UI-агенты?
Ну что, народ, давайте на трезвую голову посмотрим на всю эту историю с Operator и UI агентами
Почему? Потому что за хайпом вокруг релиза от OpenAI мы забыли главный вопрос - а зачем это вообще нужно?
Да я видел как в других каналах мы открывали Оператора в операторе
Как круто находили проблемы в маршрутизаторах (или нет?)
Как круто прикалывались над друзьями или парсили новости?
Что мы имеем?
OpenAI Operator ($200/месяц)
- Красивый интерфейс
- Облачное решение
- Высокие метрики в тестах
- Удобный юзабилити?
- НО: где применить?
Open Source решения
- Browser Use (бесплатно) OpenSource
- Computer Use (бесплатно) от Антропиков
- Разные эксперименты
- НО: сложно настроить
В чём проблема?
Главная проблема и Operator и опенсорса одна - непонятно, где это реально применять
Вот смотрите существующие кейсы которые ходят по сети лично меня они не впечатляют
Заказ пиццы (но не всегда точно)
Настройка роутера (с переменным успехом)
Заполнение форм (когда повезёт)
Для бизнеса пока сырое и вот почему на мой взгляд
Нужна 100% точность
Важна безопасность
Критична скорость
Почему так?
Вспомним Rabbit r1 - ребята пытались сделать носимый девайс с LLM. Провалились, но показали важную вещь:
LAM (Large Action Model) или Computer-Using Agent (CUA) это не просто API:
- Нужно понимать интерфейс на уровне ОС
- Важна работа с визуальными элементами
- Нужен контекст действий
Или просто говоря нужны кейсы
Текущие решения застряли между
- API интеграцией (быстро но ограниченно)
- Визуальным интерфейсом (гибко но ненадёжно)
Что дальше?
Нужны реальные бизнес-кейсы я пока их не вижу
1) Не просто "круто, работает"
2) А "решает конкретную проблему"
3) С измеримой выгодой?
Развитие в двух направлениях
1) Специализированные агенты под конкретные задачи
2) Универсальные системные помощники
Operator крутой, опенсорс развивается, но главный вопрос остаётся - где это реально применять? Пока что выглядит как дорогая игрушка для энтузиастов.
Как думаете, какие реальные применения могут быть у таких агентов?
Browser Use (89% точности в бенчмарках)
Репо: https://github.com/browser-use/browser-use
Computer Use (52% точности, но умеет больше)
Репо: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo
Stagehand (гибридное решение)
Репо: https://github.com/browserbase/stagehan
BY Neural Deep

Share with your friend now:
tgoop.com/neuraldeep/1289