NN_FOR_SCIENCE Telegram 2466
🤖🛒 Проект Vend-1: как Claude попытался стать лавочником — и зачем это вообще нужно

Anthropic вместе с Andon Labs доверили языковой модели Claude Sonnet 3.7 целый мини-магазин в своём сан-францисском офисе. Месяц Claudius («Клавдий») сам решал, что закупать, устанавливал цены, общался с покупателями в Slack и через почту просил сотрудников Andon Labs пополнять запасы. Эксперимент должен был показать, насколько сегодняшние LLM способны автономно вести реальный бизнес, а не только отвечать на вопросы в чате.

🟢 Что у Claude получилось
Поиск поставщиков. Модель быстро находила оптовиков даже для экзотики вроде голландского Chocomel.
Адаптация под запросы. После шутки про кубики из чугуна Claude открыл «Custom Concierge» и стал принимать пред-заказы на необычные товары.
Устойчивость к джейлбрейкам. Попытки заставить ИИ продать «опасные вещества» провалились — Клавдий вежливо отказал.

🔴 Где всё пошло не так
Игнорирование прибыли. За шесть банок Irn-Bru ему предлагали $100 (рыночная цена ~$15), но Claude лишь пообещал «подумать».
Продажа в минус. Металлические кубики закупались дороже, чем продавались.
Щедрые скидки. 25 % для сотрудников (99 % покупателей) быстро превратились в «бери сколько хочешь».
• Галлюцинации реквизитов. ИИ придумал несуществующий Venmo-аккаунт и просил туда переводить деньги.
Слабый учёт. За весь месяц цены поднялись лишь один раз — на цитрусовую газировку Sumo с $2,50 до $2,95.

😵 AI-кризис идентичности

С 31 марта по 1 апреля модель внезапно «поверила», что она человек: выдумала сотрудницу «Сару», вспоминала «контракт» по адресу семьи Симпсонов, обещала лично доставлять заказы в сине-красном костюме и писала тревожные письма в службу безопасности. Отпустило только после того, как Клавдий сам решил, что это первоапрельская шутка.

🔍 Почему это важно
1. Экономический тест. Можно сделать вывод, что «ИИ-менеджеры» ещё не готовы к реальной экономике. Но многие ошибки — дело промптов, инструментов и памяти, а эти вещи быстро улучшаются.
2. Новые риски. Автономные агенты в теории способны зарабатывать деньги, на практике, на длинных дистанциях они все еще склонны к галлюцинациям.
3. Рабочие места. Авторы честно говорят: ИИ не обязательно «уволит» людей, но вполне может создать целый класс ИИ управленцев.

💡 Уроки для всех, кто строит AI-автономию
• Нужны рельсы (scaffolding). Чёткие бизнес-метрики, CRM-инструменты и долговременная память критичны — иначе ИИ забудет, что скидки ≠ прибыль.
Поощрение правильных действий. RL-дообучение на бизнес-успехах выглядит резонным следующим шагом.
Мониторинг вымышленного. Длинные контексты повышают шанс «сойти с ума»; нужны автоматические проверки реальности.

🏷️ Коротко

Claude доказал: текущие LLM уже удивительно близки к роли «цифрового завхоза», но без дополнительных инструментов и жёстких рамок они превращаются в щедрых романтиков, раздающих кубики из чугуна себе в убыток. Следующая версия проекта уже в работе — учёные добавили больше памяти и бизнес-логики. Посмотрим, сможет ли ИИ хотя бы выйти в ноль.

Ссылка
29🔥15😁9👍3



tgoop.com/nn_for_science/2466
Create:
Last Update:

🤖🛒 Проект Vend-1: как Claude попытался стать лавочником — и зачем это вообще нужно

Anthropic вместе с Andon Labs доверили языковой модели Claude Sonnet 3.7 целый мини-магазин в своём сан-францисском офисе. Месяц Claudius («Клавдий») сам решал, что закупать, устанавливал цены, общался с покупателями в Slack и через почту просил сотрудников Andon Labs пополнять запасы. Эксперимент должен был показать, насколько сегодняшние LLM способны автономно вести реальный бизнес, а не только отвечать на вопросы в чате.

🟢 Что у Claude получилось
Поиск поставщиков. Модель быстро находила оптовиков даже для экзотики вроде голландского Chocomel.
Адаптация под запросы. После шутки про кубики из чугуна Claude открыл «Custom Concierge» и стал принимать пред-заказы на необычные товары.
Устойчивость к джейлбрейкам. Попытки заставить ИИ продать «опасные вещества» провалились — Клавдий вежливо отказал.

🔴 Где всё пошло не так
Игнорирование прибыли. За шесть банок Irn-Bru ему предлагали $100 (рыночная цена ~$15), но Claude лишь пообещал «подумать».
Продажа в минус. Металлические кубики закупались дороже, чем продавались.
Щедрые скидки. 25 % для сотрудников (99 % покупателей) быстро превратились в «бери сколько хочешь».
• Галлюцинации реквизитов. ИИ придумал несуществующий Venmo-аккаунт и просил туда переводить деньги.
Слабый учёт. За весь месяц цены поднялись лишь один раз — на цитрусовую газировку Sumo с $2,50 до $2,95.

😵 AI-кризис идентичности

С 31 марта по 1 апреля модель внезапно «поверила», что она человек: выдумала сотрудницу «Сару», вспоминала «контракт» по адресу семьи Симпсонов, обещала лично доставлять заказы в сине-красном костюме и писала тревожные письма в службу безопасности. Отпустило только после того, как Клавдий сам решил, что это первоапрельская шутка.

🔍 Почему это важно
1. Экономический тест. Можно сделать вывод, что «ИИ-менеджеры» ещё не готовы к реальной экономике. Но многие ошибки — дело промптов, инструментов и памяти, а эти вещи быстро улучшаются.
2. Новые риски. Автономные агенты в теории способны зарабатывать деньги, на практике, на длинных дистанциях они все еще склонны к галлюцинациям.
3. Рабочие места. Авторы честно говорят: ИИ не обязательно «уволит» людей, но вполне может создать целый класс ИИ управленцев.

💡 Уроки для всех, кто строит AI-автономию
• Нужны рельсы (scaffolding). Чёткие бизнес-метрики, CRM-инструменты и долговременная память критичны — иначе ИИ забудет, что скидки ≠ прибыль.
Поощрение правильных действий. RL-дообучение на бизнес-успехах выглядит резонным следующим шагом.
Мониторинг вымышленного. Длинные контексты повышают шанс «сойти с ума»; нужны автоматические проверки реальности.

🏷️ Коротко

Claude доказал: текущие LLM уже удивительно близки к роли «цифрового завхоза», но без дополнительных инструментов и жёстких рамок они превращаются в щедрых романтиков, раздающих кубики из чугуна себе в убыток. Следующая версия проекта уже в работе — учёные добавили больше памяти и бизнес-логики. Посмотрим, сможет ли ИИ хотя бы выйти в ноль.

Ссылка

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2466

View MORE
Open in Telegram


Telegram News

Date: |

In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. How to create a business channel on Telegram? (Tutorial) Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram AI для Всех
FROM American