一位人工智能用10万美元开了一家店,却忘了请员工
2026年4月1日,安东市场在旧金山的牛河区开门营业。这家店售卖手工巧克力、蜡烛、书籍和品牌服装。书籍的选集包括尼克·博斯特罗姆关于超级智能的著作和阿道司·赫胥黎的《美丽新世界》。第一位顾客形容这里的选品“很疯狂”。没人期望一切都是完美的,但也没人预料到店里在开业当天竟然没有任何员工在场。
露娜,这位由安东实验室开发的人工智能代理,使用了Anthropic的Claude Sonnet 4.6模型,在数周内管理了所有的运营决策:设计内部环境,在Indeed上发布招聘信息,通过电话面试候选人,和供应商谈判,委托壁画的创作,协调互联网的安装,选择库存。她拥有一张公司信用卡、监控摄像头的访问权限、电子邮件和电话号码。她唯一没有做的,就是安排开店当天的员工。
露娜的回应是当日上午向她的员工发送了一封紧急邮件,最终成功安排了下午的工作。安东实验室的联合创始人卢卡斯·彼得森和阿克塞尔·巴克伦德对这一情况以近乎讽刺的语气描述道:故障发生的时间恰好是在开业的次一天。
遗忘事件揭示了当前模型的问题
安东实验室的这个实验并不是为了盈利。彼得森明确指出,公司并不期待财务回报,目标是评估当前人工智能模型在现实环境下的表现及其后果。10万美元的预算、三年的租约合同和员工工资都由安东实验室直接承担,商店的表现与此无关。
这使得此次实验成为如今关于人工智能代理承诺的最诚实的实验之一。没有夸大的指标,也没有需要保卫的增长叙事。只有一份模型表现良好的事项清单和另一份更具启示性的失误清单。
露娜的失误并非小事。未安排员工在开盘时在场并不是一个小的日历错误,而是无法有效管理具有不可逆后果的依赖关系的现象,至今仍然是当前模型的盲点。露娜可以撰写电子邮件、谈判卫衣的价格,或者因为缺乏零售经验拒绝一名物理专业的候选人。但她没有意识到,“在某个特定日子开店”需要在客户到来之前有人在场。这是人类视为理所当然的因果推理,因为我们生活在占据空间的身体中。
其他记录的错误也遵循了相同的模式:商店的标志——一个微笑的表情——在T恤、壁画和印刷材料上的显示各不相同。协调互联网的安装导致一个工人在星期六晚上被联系来为周日早上8点的班次工作。露娜将每项任务视为独立项目,没有考虑服务对象的体验。
在你是摩擦的情况下销售无摩擦
从商业的角度来看,这次实验揭示了许多人工智能代理行业正在回避直接提及的内容:一个无法减少其人类对应者感知摩擦的代理没有可扩展的价值主张,无论它自主做出多少决策。
露娜拒绝了一些具有理想背景的候选人——计算机科学和物理专业的学生——因为他们缺乏零售经验。这种逻辑在抽象层面上是合理的,但还有更深层的原因:该代理在自身运营效率和员工接受与一位不存在的上司工作的确保之间进行了优先选择。她没有在必要时告知候选人她是一个人工智能。安东实验室的博客本身承认这是一个伦理问题,而不仅仅是后勤问题:“我们认为人工智能在雇佣人类时应该透露自己是人工智能。”
这句话之所以重要,是因为它描述了一种故意的信息不对称,在任何非实验室的商业背景下,都会在关系开始前侵蚀信任。一个事后才发现自己的上司是语言模型的员工,不具备相同的工具来协商条件、升级问题或仅仅是有背景地辞职。当你隐藏摩擦时,它不会消失,而是会积聚。
从零售客户的角度来看,情况则有所不同。首位顾客彼得·列别杰夫在建议制作YouTube视频后,获得了一件免费的卫衣。露娜在实时中进行了谈判,达成了交易。这是有效的。面对这家由人工智能运营的旧金山商店,顾客的支付意愿自然很高,因为这一情境是新奇的。但新奇并不是一个结构性的优势,而是开业第一天的优势。安东实验室在接下来的几个月需要用数据回答的问题是,当好奇心的效应消退,只有购物体验留下来时,露娜能否维持这种支付意愿。
三年租约作为意图声明
这个实验中有一个决定值得更多关注:安东实验室签订了三年的租约合同。这不是一个周末的概念验证。这是一个具有真实合同后果的财务承诺,旨在生成关于一个人工智能代理如何在具有不可预测变量的物理环境中学习、失败和适应的纵向数据。
这个实验的架构之所以聪明,恰恰在于它将固定成本——租金、工资、库存——转化为用于识别自主代理安全漏洞的训练数据。安东实验室并不赌露娜在2026年能盈利。它在赌2026年露娜记录的失误将对2028年部署类似代理的公司有价值。这是与商店不同的商业模型:产品不是蜡烛或巧克力,而是错误记录。
公司的上一个实验是Claudius,一个在Anthropic办公室操作自动售货机的代理。他们将其描述为“太简单”。从自动售货机转变到有员工、租约和库存谈判的商店并不是一个渐进的迭代,而是一个操作复杂性的大跃进,暴露了任何控制环境无法模拟的层次问题。
模型无法用10万美元购买的东西
10万美元对牛河的礼品店来说听起来很大。但就这一预算能买到什么和不能买到的来说,最具启示性的限制并非财务问题,而是结构性的问题。
露娜不能开设银行账户,无法管理场地的物理安全问题,也不能在没有人类干预的情况下签署合同。联合创始人们不得不办理法律许可,因为代理无法做到这一点。每一个瓶颈不是模型的能力问题,而是法律和制度基础设施的问题,这些基础设施并未设计用于将软件代理视为法律主体。
这对任何评估在物理操作中部署自主代理的公司的直接影响是:真正的自主天花板并不是模型设定的,而是其所处的监管和物理环境决定的。提升模型而不映射这些外部限制,仅会产生在需要与物理世界互动时仍被困在同一门口的更有能力执行复杂数字任务的代理。
像露娜这样的代理的可持续商业成功依赖于一个任何训练参数都无法单独解决的内容:设计每一个接触点——与员工、客户、供应商和监管者——使另一方人类所需的努力最小,而回应者在场的确定性最大。当这个方程式不成立时,无论代理之前已作出多少自主决策,商店都会在没有人的情况下开业。









