
在 GTC 2026 期间,英伟达发布了面向学术研究的 Isaac GR00T Reference Humanoid Robot 。按照公开信息,这套参考设计采用宇树 H2 Plus 人形机器人本体,搭载 NVIDIA Jetson AGX Thor 计算平台,配合 Sharpa 的五指灵巧手,以及 Isaac GR00T 机器人基础模型和开发栈,首批产品计划面向高校和研究机构供货。
如果只看表面,这像是一次普通的硬件合作:英伟达提供计算平台和软件栈,宇树提供人形机器人本体,双方共同推出一个科研参考平台。
但这件事很快变得复杂起来。
一方面,宇树几乎在同一时间完成科创板 IPO 过会,招股书中又明确把大笔资金投向智能机器人模型研发和本体研发。资本市场很自然地把两件事放在一起理解:宇树不只是中国人形机器人本体厂商,也正在进入英伟达的 Physical AI生态。另一方面,美国围绕中国机器人产品的监管讨论也在升温。国会两党议员提出「保卫法案」(GUARD Act)以要求安全机构审查中国人形机器人和四足机器人、国防部 1260H 清单要求限制签约与采购,此类政策信号,让宇树这样的中国机器人公司在美国市场面临更高的不确定性。
风波中心的宇树顿时饱受争议。但如果把视角只停留在宇树身上,反而容易看小这件事。对英伟达来说,宇树不是唯一合作对象,也不是不可替代的对象。它真正要验证的是另一件事:机器人时代能否像大模型时代一样,打造一个机器人训练的「CUDA 生态」,使算力生意不断延续。

英伟达在找本体入口
英伟达自己不太可能亲自下场做一家人形机器人整机公司,这不符合它过去的成功路径。大模型时代,英伟达不是 OpenAI,不是 Anthropic,也不是 Google DeepMind,但这些公司训练和部署模型时绕不开 GPU、CUDA、NCCL、TensorRT。英伟达没有占据模型与应用层,却占据了底层的算力层和开发生态。机器人时代也一样。
英伟达不需要自己造最多的人形机器人,它更想成为机器人产业的底层平台供应商。不同厂商可以有不同本体,宇树、Figure、Agility、波士顿动力、NEURA,都可以做自己的机械结构、关节、电机、控制器和整机产品。但只要这些本体接入 Isaac、GR00T、Cosmos、Jetson、Newton,机器人训练和部署链条中的大量计算,就会回到英伟达的平台上。所以,宇树在这件事里扮演的角色,是一个本体入口。这个入口有两个特点。
第一,宇树有成本和工程化优势。相比许多欧美人形机器人公司,宇树更擅长把复杂机器人做成可购买、可交付、可迭代的硬件产品。H2 Plus 官网显示,它搭载 Jetson T5000 机载计算模块,配合双 Sharpa Wave 灵巧手后总自由度达到 75 个,并面向科研和二次开发场景。

第二,宇树已经有研究者基础。G1、H1、H2 等产品在高校和开发者群体中有一定可见度。如果英伟达想让 GR00T 这样的机器人基础模型快速进入实验室,它需要一个足够便宜、足够开放、也足够有表现力的本体平台。这就是为什么英伟达会把参考设计先放在学术研究场景。科研市场规模不一定最大,但影响标准。论文、开源代码、benchmark、实验范式,往往先从高校和研究机构里长出来。英伟达让 Ai2、ETH Zurich、Stanford、UCSD 这类机构先用这套参考设计,本质上是在抢机器人研究的默认开发环境。定义标准是锚定长期市场的关键环节,标准一旦成型,未来更多机器人将从一开始就与英伟达的技术栈深度绑定。

缺的不只是本体,还缺数据
有了本体,只解决了第一层问题。机器人训练真正麻烦的地方,是数据。
大模型训练有一个天然优势:互联网已经积累了海量文本、图像和视频。语言模型可以从人类写过的话里学习语言,从网页和视频里学习世界知识。
但机器人需要真实的物理交互动作。如手怎么抓杯子,脚怎么找平衡,关节怎么分配力矩,碰到桌沿时如何调整路径,物体滑落时怎么补救。
更麻烦的是,这些机器人动作数据天然碎片化。人类视频是一种格式,动捕数据是一种格式,遥操作数据是一种格式,仿真轨迹是一种格式。不同机器人本体的关节数量、自由度、手部结构、传感器配置又不一样。一个人类抬手的动作,不能直接变成某台人形机器人的控制指令;一台机器人学会的动作,也不能直接迁移给另一台机器人。所以,机器人预训练要规模化,先要解决「动作怎么表示」的问题。

这就是英伟达的 SOMA-X 这一类工作的意义。它要解决的是不同参数化人体模型之间的不兼容问题,例如 SMPL、SMPL-X 等模型在网格拓扑、骨架结构、形状参数和单位约定上的差异。论文提出通过统一网格、统一骨架和统一姿态抽象,让不同人体模型和动作数据可以进入同一套表示层。
如果机器人要学习人类动作,就必须先把人类动作转成统一的、可计算的、可迁移的表征。否则,数据越多,格式越乱;模型越大,训练越难收敛到可用动作。从这个角度看,机器人不只需要真实本体,还需要「数据本体」。
真实本体解决的是动作最终落到哪台机器上;数据本体解决的是动作在训练系统里如何被记录、生成、转换和复用。

Isaac Newton 成为具身训练场
近代物理学之父 Isaac Newton 的名字,像是被英伟达拆进了自己的机器人技术体系里:Isaac Lab 负责机器人学习和训练流程,Newton solver 负责物理仿真与求解。
这当然不一定是英伟达刻意设计的命名意义,但作为产业隐喻,它非常准确。机器人面对的世界,仍然是牛顿式的物理世界。重力、摩擦、接触、碰撞、惯性、关节约束、力矩限制,这些东西不会因为模型参数变大而消失。语言模型可以在 token 空间里试错,机器人却必须在物理世界里承担动作后果。所以,仅仅有动作数据还不够,动作还要被放进物理环境里摔打。

Isaac Lab 的位置在这里。它是英伟达面向机器人学习的训练框架,用来组织强化学习、模仿学习、运动控制和操作任务。最新 Isaac Lab 3.0 Beta 的方向很明确:多物理后端、可插拔渲染器、Warp-native 数据管线、kit-less 安装模式。这些变化说明 Isaac Lab 正在从「Isaac Sim 上的训练工具」,变成更独立的机器人训练平台。
Newton solver 的位置更底层。它处理的是碰撞、接触、关节、摩擦、约束、可微物理等问题。Newton v1.3.0 在 2026 年 6 月发布,新增和强化了面向强化学习的 solver reset、SDF/hydroelastic 碰撞、ray query、USD/MJCF 资产导入、viewer/rendering 等能力。这些功能不太适合发布会造势,但它们决定机器人训练能不能工程化。
如果说 SOMA-X 解决的是动作如何统一表示,Isaac Lab 和 Newton 解决的就是这些动作如何在物理规则下训练、验证和优化。因为机器人行业最难的,不是让仿真视频看起来漂亮,而是让仿真里训练出来的策略在真实本体上还能工作。仿真到现实之间的差距,才是 Physical AI 的硬问题。
也正是在这个意义上,Isaac Newton 这个名字隐喻成立了。英伟达想做的,不是给机器人装一个聊天模型,而是给机器人造一所「物理学校」:先把动作变成数据,再把数据放进仿真,再让策略在虚拟世界里经历足够多的物理后果,最后迁移到真实本体上。

英伟达的机器人训练栈,正在成型
把这些组件放在一起,就能看到英伟达真正的技术栈,正在贯穿机器人训练的全链路。

本体提供真实承载,动作表征提供数据格式,GR00T 把感知和动作接起来,Cosmos 补足世界模型和合成数据,Isaac Sim 提供仿真世界,Isaac Lab 组织训练,Newton 处理物理,Jetson 负责部署,底层则全部回到 GPU 和 CUDA。
这就是英伟达熟悉的生意结构。它不一定拥有终端应用,但它要拥有开发路径。只要开发路径被它定义,产业越往前走,算力需求越会回流到它的平台。

Physical AI 是叙事,本质回到了算力
英伟达很擅长制造概念。AI Factory、Omniverse、Digital Twin、Physical AI、World Foundation Model、World Action Model,这些词都带着黄仁勋式的叙事风格。它们足够大,足够顺,足够让投资者和开发者相信下一波浪潮正在到来。
但如果把话说得更直接一点,英伟达还是在做自己最擅长的事:把下一个技术问题,变成下一个算力需求。大模型时代,GPU 需求来自 token。模型要读更多文本、生成更多内容、处理更多上下文,就需要更多训练和推理算力。机器人时代,GPU 需求会来自 action。一个 action 背后,不只是一个动作指令。它需要感知输入、语言理解、动作生成、物理仿真、策略训练、失败回放、真实本体验证和边缘端实时控制。这其中,每一步都要算力。
英伟达的 GR00T N1 技术报告《An Open Foundation Model for Generalist Humanoid Robots》显示,这类机器人基础模型训练使用了真实机器人轨迹、人类视频和合成数据的混合数据,并采用视觉-语言-动作架构,把理解和动作生成连接起来。

Cosmos 3 则更进一步,把语言、图像、视频、音频和动作序列放进一个统一的世界模型框架,用来服务 Physical AI。行动越复杂,仿真越多;仿真越多,GPU 消耗越大;GPU 消耗越大,英伟达的生意就越稳。英伟达想把 AI 的算力叙事,从 token 扩展到 action。牛顿当年把物理世界抽象成可计算的规律。
英伟达今天想做的,是把机器人行动抽象成可训练的算力流程。从人类动作到统一表征,从统一表征到仿真训练,从仿真训练到真实本体,从真实本体再回流数据。每一步都被软件化、平台化、GPU 化。
这不是单纯的机器人故事,而是英伟达把算力增长从语言世界推向物理世界的布局。宇树提供了一个足够具体的本体样本,让这套叙事第一次变得可触摸;SOMA-X 这类工作让动作数据有了统一入口;Isaac Lab 和 Newton 把动作放进物理仿真中训练;Cosmos 和 GR00T 则把世界模型与机器人基础模型接上。
最后,所有这些都会回到同一个问题:机器人越多,动作越多,仿真越多,训练越多,谁来提供算力?英伟达已经给出了自己的答案。它不一定要造机器人,但一定要让机器人变成新的算力生意。
