不做机器人本体，这家公司却拿了 385 亿估值，它赌的是操作系统

最近，美国具身智能公司 Physical Intelligence 的联合创始人 Sergey Levine 参加了播客节目《Invest Like The Best》，在 1 个多小时的访谈中，Sergey Levine 就机器人模型路线、数据飞轮、本体硬件等问题进行了详细探讨。

作为一家主做软件的具身公司，PI 的商业模式是给其他机器人团队提供模型，这点也类似于给汽车提供智驾系统的软件公司。并且在去年底完成 6 亿美元融资后，PI 的估值达到 56 亿美元（约合人民币 385 亿元），比不少全栈自研的具身公司估值都要高。

另外，身为 PI 的联创，Sergey Levine 同时也是 UC 伯克利大学计算机副教授，其谷歌学术引用量达 18 万次，在机器人等领域具有一定的影响力。

在行业共同关注的数据领域，Sergey Levine 认为，现阶段量化终极数据集的规模不是首要问题，打造能落地执行多样化任务、持续采集数据的实用系统是更关键的事情。

而对于机器人大规模进入家庭这件事，Sergey Levine 表示，如果在 2050 年机器人还没进入家庭干活，那很可能就是因为应对场景的多样性，和技术与人类社会交互的长尾挑战还没有很好地解决。

所以在这个过程中，PI 一直就想打造一套像操作系统一样的底座，从而适配各种类型的本体硬件。

数据先跑起来最关键

相比较大语言模型，机器人行业的数据问题，更加复杂。Levine 也提到一个关键差异，就是机器人没有「互联网级数据」。基本没什么统一格式的情况下，还没有低成本的标注。

所以目前行业在数据方面的路径大致分为两种：

真实世界 + 数据驱动，采用大量真实数据，多任务学习，打造通用模型。特点是泛化强，贴近真实场景，但规模化的数据采集成本很高。
仿真驱动，模型主要在仿真环境中学习，成本低，也可以模拟一些极端危险场景。但仿真与真实物理世界之间通常存在一些微观误差。

PI 走的路线是前者，比较重视真实数据，但 Levine 也没有盲目自信，他提到这两条路线未来要么融合，要么其中一条胜出，并不一定真实数据的路线就一定能走到最后。

目前而言，PI 的策略，还是非常接近特斯拉的自动驾驶逻辑，Levine 表示，核心是让系统先具备实用价值，能走入现实世界自主采集更多数据，就像特斯拉从不担心车辆数据量，甚至数据多到处理不完。关键不在于量化终极数据集的规模，而在于打造能落地、能执行多样化任务、持续采集数据的实用系统。

这就是机器人版的数据飞轮，也是现在很多机器人公司都在提、也最想去落地推动的事情：

让系统先能用起来，尽管不完美，能在真实环境中持续执行任务是核心。
在使用中采集数据，这个过程中用户得到了使用价值，整个系统也有了持续学习，产出数据的载体。
反哺模型，实际落地中产生的数据可以让模型不断优化策略，从而提升能力。

但这里有一个更深的变化，就是数据的重心正在迁移，过去机器人依赖精确控制数据、人工标注轨迹和动作级监督。

而现在，Levine 提到一个非常关键的技术点：只用「语言标注」，也能优化机器人。也就是说，机器人犯错时，不需要再教机器人怎么动，用语言标注哪里做错了，模型就可以得到改进。

这也就意味着机器人正在逐渐进入一个弱监督时代，类似大模型从精确标注走到大规模弱监督，从动作学习走到语义学习，这一步也是机器人走向规模化的关键。

操作系统一样的底座更加重要

在机器人本体硬件领域，通常也有两种设计方案，一种是专用机器人，像物流、洗碗机器人，它们能在细分场景中执行专业任务，一旦换个场景，就会没有用武之地。

另一种则是通用人形机器人，目标是执行人类可以做到的一切任务，通用性很强，但研发难度非常高。

在 Levine 看来，这些都不是主要问题，所有机器人面临的智能核心挑战是一致的。造出一个像操作系统一样的底座是更重要的问题，而后大量本体硬件形态在这上面爆发，才是更合理的路径。并且优秀的基础模型应与机器人形态解耦，能自主适配操控的躯体与工具。

这也是他对 physical intelligence 的定义，目标是开发能控制任何具身系统去执行「任何任务」的机器人基础模型。

在这里 Levine 也用大语言模型和机器人模型进行了比较：

语言模型能一统各类应用场景，核心是它能利用更广泛的数据来源。这并非简单整合各场景数据，而是通过弱监督数据习得更全面的世界认知，建立底层认知基础，在此之上搭建各类应用，效率会大幅提升。
在机器人领域，世界认知能力更关键。人类能快速掌握新技能，是因为我们理解物理规则，能凭直觉预判陌生场景的结果，快速举一反三。如果能整合多来源、多场景、多机器人的数据，就能让模型具备物理认知能力，后续在该平台上拓展新应用会更加轻松。

在这个基础上，PI 一直以来的路径都是优先模型算法层面的研发，尽管机器人行业有这么一句话流传：「如果你从事机器人领域，却不全力以赴解决硬件问题，无论成本如何，你都不会成功。」

这句话正是出自 Figure 创始人，这家公司有着机器人行业全球最高的 390 亿美元估值。

如果 25 年后机器人还不能走进家庭

自从这两年机器人开始大规模走进大众视野后，人们就一直在期待着机器人能真的走进家里，帮助自己处理一些家务。

但因为技术成熟度的限制，尤其是模型，很多机器人干活的样子大家也只能通过短视频 Demo 来了解，不过近一年随着模型、数据、硬件等领域的发展。

不少机器人从业人士对机器人进家这件事开始更加积极，5 到 10 年左右也是一些 CEO 经常提到的数字，对应的时间节点大概在 2030 到 2035 年。

「如果到 2050 年，厨房仍没有机器人帮忙洗碗，最可能的原因是什么？」

Levine 对此表示，如果是这样，那核心阻碍可能就是技术与人类社会交互的长尾挑战，在技术层面，最大的风险就是应对场景的多样性。

技术与人类社会交互的长尾挑战：和自动驾驶类似，技术达标只是一方面，公众对技术的接受度、对不完美表现的容忍度，也是很大的问题。
应对场景的多样性：清洁酒店客房、餐厅辅助厨师等相对可控的复杂场景，我们有把握攻克。但家庭环境充满不可预知的突发状况，需要模型精准预判、智能适配。当任何情况都可能发生，且机器人会真实影响物理世界，就必须保证每一次决策都合理可控，行为必须符合人类预期。

而且对于机器人进入家庭来说，最难的任务就是扶老人起床、给婴儿换尿布这类照护型的任务，有非常高的风险，互动时容易伤到人类。

这些对于机器人来说是终极挑战，也是最容易让低估难度的领域。

中层推理环节是当下核心

在目前机器人行业技术路径尚未完全收敛的情况下，Levine 也简单透露了当下 PI 的研发核心是中层推理环节。

他提到，要想实现泛化，必须依托常识知识，而知识的表征形式至关重要。大语言模型擅长文本转换，但机器人需要空间、语义等多维度认知。

这背后其实意味着一个行业共识正在逐渐形成，机器人最大的瓶颈，已经从动作执行，转向决策与理解。

更重要的变化是，推理的表征形式，也在慢慢发生转变。

过去一年，很多机器人系统开始引入类似大模型的思维链，先用语言拆解任务，再逐步执行动作。这在早期非常有效，相当于把大模型的能力外挂到机器人上。

但在落地过程中，大家也慢慢发现，语言并不是物理世界的高效表示。如果把机器人面对的空间关系、物体状态和连续变化这些信息如果全部转成文本再推理，不仅低效，而且容易出错。

这也是 Levine 提到的关键点，需要新的「知识表征方式」，而不是单纯依赖文本。当前行业正在探索的方向，是把推理从「显式语言」，逐渐转向「隐式结构」。

简单理解就是，不再用碎碎念式思考，重点是在模型内部，直接形成空间+语义+动作的联合表示。类似于人在做事时，并不会在脑中逐句说话，而是直接形成直觉判断。

写在最后

把这场对话放回到整个机器人行业来看，会发现 PI 的选择，其实非常明确：

在数据上押注真实世界和数据飞轮。
在系统上强调类似操作系统的通用底座。
在模型上，下一步重点放在中层推理与表征方式。

在机器人领域，这是一条更慢、更长，但也更深的技术曲线，而且还要接受短期内难以看到明显经济效益的现实。

所以，对于业务重心都在软件上的 PI，数据飞轮并不容易推动，他们更需要将模型算法做到极致，才会有大规模硬件对此买单。

不做机器人本体，这家公司却拿了 385 亿估值，它赌的是操作系统

数据先跑起来最关键

操作系统一样的底座更加重要

如果 25 年后机器人还不能走进家庭

中层推理环节是当下核心

写在最后

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？

不做机器人本体，这家公司却拿了 385 亿估值，它赌的是操作系统

数据先跑起来最关键

操作系统一样的底座更加重要

如果 25 年后机器人还不能走进家庭

中层推理环节是当下核心

写在最后

相关文章

从底层本能出发，橡木果机器人发布「本能驱动」技术路线

VLA 终于摆脱后训练了？自变量开源 WALL-OSS-0.5，预训练完直接上真机

第一批消费级四足机器人进家门，这些用户都在想什么？

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？