PI 全力押注操作系统，一个模型真能适配所有机器人？

最近，美国具身智能公司 Physical Intelligence 的联合创始人 Quan Vuong 参加了 YC 团队的播客节目，在近 1 小时的访谈中，Quan Vuong 就机器人的 ChatGPT 时刻、数据瓶颈、云端推理等问题进行了详细探讨。

在具身智能这条赛道上，PI 其实算是一个异类，不造机器人本体，主要做软件。

这家公司想做的是机器人世界里的智能基础设施，给本体厂商提供模型，就像云计算之于互联网创业，把技术变成一种随取随用的服务。

在训练模型最大的数据难点层面，Quan Vuong 认为数据的规模化极其重要，在规模的支撑下，模型就可以学到机器人的通用控制逻辑，从而适配各种硬件本体，并非只能在某一台机器人上运行。

另外，基于一个模型控制不同机器人的前提，PI 选择了将模型部署在云端的思路，让真正的感知、推理和决策，都在云端完成。

而这些细节的背后，其实就藏着 PI 想做机器人操作系统平台的野心。

何为机器人的 ChatGPT 时刻？

过去一年来，随着机器人能力的快速提升，大家开始越来越多的谈起机器人的 ChatGPT 时刻什么时候到来。在这个问题上，每个人都有自己的理解，但本质上都是在期待一个通用能力的奇点时刻。

而 PI 联创 Quan Vuong 认为的机器人 ChatGPT 时刻是这样的：「打造出真正智能的模型，再搭建平台，把它开放出来，让大家基于此开发各类垂直机器人应用。」

其实这也跟 PI 这家公司的定位有很大关系，在具身智能这条赛道中，PI 的主要业务是在软件层面，目标是给机器人厂商提供模型，类似于智能驾驶赛道中给汽车厂商提供智驾软件的公司。

只不过目前具身领域很多厂商都会选择自研模型，不同厂商的机器人本体对于模型的要求也会有很大的差别，所以 PI 一直以来想做的就是一个模型，适用于各种机器人本体，这就是他们对于模型的跨本体性能如此重视的原因，毕竟这关乎着公司的商业化能力。

在这里，Quan Vuong 提到了此前 Google Robotics 等团队在 2022 年提出的 SayCan 模型，核心是让大语言模型（LLM）给机器人「说」合理动作、再由机器人确认能否执行。

SayCan 带来的框架其实是现在很多主流 VLA 模型的雏形，它证明了大语言模型的常识知识可以为机器人所用，这让机器人的研发对于数据采集的需求逐渐降低。

不过即便是如此，机器人所需要的数据相比较 LLM 来说，数据规模仍然是偏小的。

LLM 有大量的互联网数据使用，可具身领域不能只靠这些，真机数据、人类第一视角数据等都是重要的数据来源，这些都需要花费大量精力来采集，甚至成为了当下行业的一大卡点。

从数据规模中学习控制逻辑

在早期 SayCan 将 LLM 的知识带给机器人后，PaLM-E 与 RT-2 这两项研究则让规划转化为了机器人可执行的底层动作，只不过它们只对特定的机器人有效果，跨本体能力不行。

机器人应用要想规模化，这种跨本体能力就显得非常重要，在这个基础上，数据采集的规模化就是急需处理的事情。

Quan Vuong 认为模型在数据中学到的东西是什么，是更重要的问题。

所以他强调了数据要有足够规模，只有规模上去了，模型从数据中就能学到抽象的通用控制逻辑，从而控制各种机器人本体。

只不过 LLM 的崛起，很大程度上靠的是「互联网」这座天然数据矿山。而机器人面对的，则是一片还没有什么人开采的荒地。

Quan Vuong 就直接点出了这个问题：

第一层是数据生成。现实世界里每天都在产生大量机器人操作数据，工厂里的机械臂、仓库里的分拣机器人、实验室里的遥操作记录。但这些数据绝大多数没有被系统地采集、整理，更没有被用于训练。
第二层是数据适配。即便数据采集上来了，不同硬件平台的数据也难以直接通用。单平台积累的数据，换一台机器人可能就失效了。

这两层叠在一起，就是机器人「数据飞轮」没有真正跑起来的关键原因。

但这道坎并非无解，Quan Vuong 给出的答案是跨硬件训练。

具体逻辑是，当模型被迫学习来自不同机器人本体的数据时，它没有办法依赖某一台机器人的具体特性，只能去学习更抽象的控制逻辑，什么是「抓住」，什么是「放下」，什么是「施加适当的力」。这种抽象化，反而让模型更能适配硬件之间的差异，而不是被这些差异所困住。

对他们来说，这是公司商业模式能否成立的前提，如果模型只能在一种机器人上工作，PI 就没有办法成为机器人界的智能层。

这条路走通了多少，从PI 最新发布的 π0.7 模型表现来看，已经有了切实的依据。

在最新演示中，π0.7 在叠衣服时，训练数据里并没有 UR5e 叠衣服的样本，但它的完成度达到了 85.6%。成功率接近有丰富遥操作经验的人类第一次上手时的水平。

一年前，这些任务可能还需要在对应硬件上收集数百小时数据才能实现。

这背后，是模型开始出现 Quan Vuong 所说的涌现能力，不是靠记住训练数据里的每一个动作，而是真的「理解」了任务结构，能够在新场景下举一反三。

模型选择部署在云端

在规模部署机器人的问题上，很多企业的第一反应是配置算力硬件等方面。

这个问题本身可能一个陷阱，Quan Vuong 在访谈中直接点破了这一点，今天买的芯片，两年后可能已经落后一代。把重金押在硬件上，是一种偏高风险的行为。

PI 的选择是反其道而行之，把大脑放在云端，让机器人本体尽可能「轻」。

PI 对外的能力演示，背后的模型全部运行在云端，机器人的工作流程被简化，核心的感知、推理、决策，都通过 API 调用完成。

这意味着机器人本体不再需要堆叠重型计算单元、高功耗芯片等，只需保留基础的执行能力。硬件变轻了，成本降了，迭代的压力也从机器人厂商身上转移到了云端模型这一侧。

有一个故事，Quan Vuong 在访谈中特别提到，颇能说明问题。

PI 与 Weave、Ultra 的合作过程中，合作方机器人本体的硬件细节他本人故意不去了解，但模型可以丝滑接入，不需要定制适配，就能直接跑起来。

这种「硬件无关性」，正是 PI 商业模式规模化的关键前提。如果每接入一家新客户都要重新适配一次硬件，PI 的模式就永远只能是定制服务，而不是平台。

写在最后

作为一家主要业务在软件上的具身公司，PI 的发展逻辑和那些全栈自研的厂商天然不同。

在很多厂商更加强调硬件为 AI 设计、硬件也属于模型设计一部分的思路下，PI 其实也面临着非常大的市场压力。

这条路能不能走通，本质上是一个关于「行业分工」的理解。

全栈自研走的是硬件和软件深度耦合，协同优化才能把性能做到极致。像特斯拉、Figure 等厂商都在走这条路，自己造身体，自己训大脑。

PI 押注的是另一个方向，分工比垂直整合更有规模效应。就像没有人会怀疑操作系统的价值，智能层和执行层的解耦，可能才是机器人行业真正规模化的前提。

但这个判断能否成立，有一个绕不过去的前提，模型的跨本体能力必须足够强，强到硬件厂商觉得「用 PI 的模型比自研更划算」。π0.7 展现了一定的组合泛化和跨本体能力，但在大规模落地应用层面，可能还有很长的路要走。

对 PI 来说，留给他们证明「软件路线能赢」的窗口，可能比想象中更窄。

PI 全力押注操作系统，一个模型真能适配所有机器人？

何为机器人的 ChatGPT 时刻？

从数据规模中学习控制逻辑

模型选择部署在云端

写在最后

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？

PI 全力押注操作系统，一个模型真能适配所有机器人？

何为机器人的 ChatGPT 时刻？

从数据规模中学习控制逻辑

模型选择部署在云端

写在最后

相关文章

目标 4 年 10 万台机器人，Figure 先交了 350 台

小米开源具身模型真机后训练，想让机器人不再「偷懒」？

Optimus V3 推迟亮相，马斯克在下什么棋？

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？