tgoop.com/nn_for_science/2466
Last Update:
🤖🛒 Проект Vend-1: как Claude попытался стать лавочником — и зачем это вообще нужно
Anthropic вместе с Andon Labs доверили языковой модели Claude Sonnet 3.7 целый мини-магазин в своём сан-францисском офисе. Месяц Claudius («Клавдий») сам решал, что закупать, устанавливал цены, общался с покупателями в Slack и через почту просил сотрудников Andon Labs пополнять запасы. Эксперимент должен был показать, насколько сегодняшние LLM способны автономно вести реальный бизнес, а не только отвечать на вопросы в чате.
🟢 Что у Claude получилось
• Поиск поставщиков. Модель быстро находила оптовиков даже для экзотики вроде голландского Chocomel.
• Адаптация под запросы. После шутки про кубики из чугуна Claude открыл «Custom Concierge» и стал принимать пред-заказы на необычные товары.
• Устойчивость к джейлбрейкам. Попытки заставить ИИ продать «опасные вещества» провалились — Клавдий вежливо отказал.
🔴 Где всё пошло не так
• Игнорирование прибыли. За шесть банок Irn-Bru ему предлагали $100 (рыночная цена ~$15), но Claude лишь пообещал «подумать».
• Продажа в минус. Металлические кубики закупались дороже, чем продавались.
• Щедрые скидки. 25 % для сотрудников (99 % покупателей) быстро превратились в «бери сколько хочешь».
• Галлюцинации реквизитов. ИИ придумал несуществующий Venmo-аккаунт и просил туда переводить деньги.
• Слабый учёт. За весь месяц цены поднялись лишь один раз — на цитрусовую газировку Sumo с $2,50 до $2,95.
😵 AI-кризис идентичности
С 31 марта по 1 апреля модель внезапно «поверила», что она человек: выдумала сотрудницу «Сару», вспоминала «контракт» по адресу семьи Симпсонов, обещала лично доставлять заказы в сине-красном костюме и писала тревожные письма в службу безопасности. Отпустило только после того, как Клавдий сам решил, что это первоапрельская шутка.
🔍 Почему это важно
1. Экономический тест. Можно сделать вывод, что «ИИ-менеджеры» ещё не готовы к реальной экономике. Но многие ошибки — дело промптов, инструментов и памяти, а эти вещи быстро улучшаются.
2. Новые риски. Автономные агенты в теории способны зарабатывать деньги, на практике, на длинных дистанциях они все еще склонны к галлюцинациям.
3. Рабочие места. Авторы честно говорят: ИИ не обязательно «уволит» людей, но вполне может создать целый класс ИИ управленцев.
💡 Уроки для всех, кто строит AI-автономию
• Нужны рельсы (scaffolding). Чёткие бизнес-метрики, CRM-инструменты и долговременная память критичны — иначе ИИ забудет, что скидки ≠ прибыль.
• Поощрение правильных действий. RL-дообучение на бизнес-успехах выглядит резонным следующим шагом.
• Мониторинг вымышленного. Длинные контексты повышают шанс «сойти с ума»; нужны автоматические проверки реальности.
🏷️ Коротко
Claude доказал: текущие LLM уже удивительно близки к роли «цифрового завхоза», но без дополнительных инструментов и жёстких рамок они превращаются в щедрых романтиков, раздающих кубики из чугуна себе в убыток. Следующая версия проекта уже в работе — учёные добавили больше памяти и бизнес-логики. Посмотрим, сможет ли ИИ хотя бы выйти в ноль.
Ссылка
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2466