我热爱机器人。我从事人工智能和机器人相关工作已经大约 5 年了。所以从情感上讲,我当然非常希望家里能有一台类人机器人,帮我洗碗、洗衣服,甚至替我去买菜。谁不想要呢?
但我真的不认为我们已经接近“通用型家用类人机器人”的时代。不知为何,在 2026 年,说出这样的观点竟然显得有些“有争议”。所以我决定把它写下来。
我的核心观点是:通用型类人机器人就像自动驾驶汽车——但实际上还要难得多。在解释原因之前,我们先谈谈好消息。
过去 5 年里,类人机器人领域确实取得了一些非常令人印象深刻的进展。我们现在已经拥有:
更好、更便宜的硬件。像 Unitree 和 Boston Dynamics 确实做出了非常出色的成果。尤其是 Unitree,价格已经大幅下降:Unitree G1 起售价 1.35 万美元,H2 起售价 3 万美元。1X 允许以 2 万美元预订 Neo。这只是我过去工作时使用的一只机器人手的成本的一小部分,而现在你能买到的是一整台机器人。
多模态基础模型与世界模型。所有前沿实验室现在都在用图像和文本训练模型;Google 还在 Gemini 的预训练中加入视频数据。我们有像 OpenAI 的 Sora 2 和 Google 的 Genie 3 这样的模型。这对机器人领域来说是个好消息,因为你完全可以把这些预训练模型作为具身智能(embodied AI)的基础,甚至可能用世界模型在无需大量真实世界数据的情况下训练它们完成多种任务。
巨额资本流入。人们对类人机器人非常兴奋,投资者正在向这个领域大量投入资金。比如 Figure(融资 10 亿美元,估值 390 亿美元)、1X(试图以 100 亿美元估值再融资 10 亿美元)、Neura(也在尝试以 80–100 亿美元估值融资 10 亿美元),以及 Unitree(寻求 70 亿美元 IPO)。这是一笔庞大的资本。特斯拉也在大力投资其 Optimus 类人机器人,甚至将 Fremont 装配线改造用于生产类人机器人。
但即便如此,构建通用型类人机器人仍然极其困难。我们目前最接近的参考物是自动驾驶汽车——它们本质上就是带轮子的自主机器人。既然我们已经在自动驾驶上投入多年,可以回头看看进展如何。
结果是:自动驾驶非常困难,而且至今仍未完全解决。Waymo 可以说在投入 17 年和数十亿美元后,基本在少数几个城市实现了可用,但仍然需要雇佣 DoorDash 司机帮忙关车门。还有一长串失败的公司:Cruise、Uber、Argo AI。所谓“长尾问题”确实非常长。
而且,自动驾驶其实还是更简单的问题。相比类人机器人,它有显著的结构性优势:
成熟的硬件。人类已经制造汽车超过 100 年。现代汽车极其可靠且安全。
受限的环境。汽车在公共道路上行驶。公共道路是高度规范化的环境。当然存在一定混乱和各种意外,但整体环境结构性很强。
单一、定义清晰的任务。自动驾驶汽车只需要从 A 点到 B 点。驾驶复杂,是因为情境多样,而不是任务本身多样。
自动驾驶是“功能”,不是“前提”。普通汽车即便不能自动驾驶也依然有用。你不需要它自动驾驶,它依然具有价值。
可扩展的数据收集。因为上述特点,数据收集路径非常清晰:记录人类司机日常驾驶行为即可。这些数据是自然产生的副产品,不需要额外雇佣人来专门采集。
现在,把这些与通用型类人机器人对比:
不成熟的硬件。是的,进步存在,但我们没有大规模部署类人机器人 100 年的经验。它们会不可靠,会频繁出故障。颇具讽刺意味的是,1X 的 Neo 在为《华尔街日报》记者 Joanna Stern 做演示时就已经出现故障。硬件问题远未解决。而且目前还没有像汽车那样普及的维修基础设施。
极其开放的环境。你要把机器人部署在人们的家里。家庭环境差异巨大:有的很小,有的很大;有的整洁,有的凌乱;有的色彩丰富,有的层高复杂;有的多层结构。人们如何布置家庭几乎没有规则。如果你还希望机器人去买菜,那它还要应对公共道路和商店环境。这非常复杂。
任务种类极其繁多。今天我让你洗衣服,明天能不能做饭?还能不能打扫卫生、买菜、取信、遛狗?通用机器人被期望执行的任务范围极其广泛。
完全自主是基本要求,而不是附加功能。与汽车不同,机器人如果不能自动运行几乎毫无价值。想象一下花 2 万美元买个机器人,然后你自己远程操控它洗碗——没人会愿意。机器人的意义在于替你做你不想做的事。所以要么通过 AI 实现自主运行,要么雇人远程操作。更复杂的是社交层面:机器人在与人类共处的环境中工作,必须适应社会规范与行为,这进一步提高了难度。
数据极度稀缺。这是关键问题。特斯拉可以从道路上每一辆车收集驾驶数据——数百万英里的数据,免费获取,因为它是驾驶行为的副产品。这种数据优势非常真实,是 FSD 取得进展的重要原因。类人机器人没有这种优势。机器人没有 AI 就没用,因此没有自然用户产生数据。你要么付钱让人远程操控(不可扩展),要么付钱采集人类示范数据,要么依赖机器人自主运行后产生数据(前提是 AI 已经足够好),要么依赖仿真。世界模型或许是突破口,但尚未验证。尤其在家庭环境中,还涉及明显的隐私问题。
当然,类人机器人也有一些优势:部署限制更少,单次失败成本更低(摔碎盘子 vs. 车祸),家用机器人可以暂停并向人类求助,而高速公路上的汽车不能;更重要的是,如今的感知与基础模型远比 2009 年 Waymo 起步时强大得多。
但总体而言,我认为这些优势仍然被上述挑战所抵消,尤其是数据问题。因此,我依然觉得通用型类人机器人在短期内落地的概率很低。
不过,这并不意味着家庭机器人领域毫无进展。看看扫地机器人这些年的进步;Roborock 甚至在旗舰型号上安装了机械臂。像 Husqvarna 和 Mammotion 的机器人割草机市场也在快速发展。这些产品之所以成功,正是因为它们绕开了上述问题:硬件更简单成熟、任务明确、已有部署规模可以产生数据。它们不像类人管家那样令人兴奋,但它们是真实存在、正在出货的产品。我认为这些公司未来完全有可能逐步扩展到更强大的家庭机器人。同时它们也提出了一个关键问题:我们真的需要类人形态吗?
还有像 Physical Intelligence 和 Generalist AI 这样的公司,正在为工业机器人构建基础模型。这或许是另一条可行路径:从成熟的工业硬件和更受限的环境开始,然后逐步扩展能力。
如果你正在研发通用型类人机器人:祝你好运。我前面列出的挑战都是真实且困难的。关键在于如何突破这些结构性部署与数据飞轮难题。但总得有人去尝试,我真心希望你成功。
与此同时,让我们保持理性。这个愿景很激动人心。我也想要。但“想要”并不等于“接近实现”。一个炫酷的演示,也还不等于一个真正可规模化的产品。