在 GTC 2026 期间，英伟达发布了面向学术研究的 Isaac GR00T Reference Humanoid Robot 。按照公开信息，这套参考设计采用宇树 H2 Plus 人形机器人本体，搭载 NVIDIA Jetson AGX Thor 计算平台，配合 Sharpa 的五指灵巧手，以及 Isaac GR00T 机器人基础模型和开发栈，首批产品计划面向高校和研究机构供货。

如果只看表面，这像是一次普通的硬件合作：英伟达提供计算平台和软件栈，宇树提供人形机器人本体，双方共同推出一个科研参考平台。

但这件事很快变得复杂起来。

一方面，宇树几乎在同一时间完成科创板 IPO 过会，招股书中又明确把大笔资金投向智能机器人模型研发和本体研发。资本市场很自然地把两件事放在一起理解：宇树不只是中国人形机器人本体厂商，也正在进入英伟达的 Physical AI生态。另一方面，美国围绕中国机器人产品的监管讨论也在升温。国会两党议员提出「保卫法案」（GUARD Act）以要求安全机构审查中国人形机器人和四足机器人、国防部 1260H 清单要求限制签约与采购，此类政策信号，让宇树这样的中国机器人公司在美国市场面临更高的不确定性。

风波中心的宇树顿时饱受争议。但如果把视角只停留在宇树身上，反而容易看小这件事。对英伟达来说，宇树不是唯一合作对象，也不是不可替代的对象。它真正要验证的是另一件事：机器人时代能否像大模型时代一样，打造一个机器人训练的「CUDA 生态」，使算力生意不断延续。

英伟达在找本体入口

英伟达自己不太可能亲自下场做一家人形机器人整机公司，这不符合它过去的成功路径。大模型时代，英伟达不是 OpenAI，不是 Anthropic，也不是 Google DeepMind，但这些公司训练和部署模型时绕不开 GPU、CUDA、NCCL、TensorRT。英伟达没有占据模型与应用层，却占据了底层的算力层和开发生态。机器人时代也一样。

英伟达不需要自己造最多的人形机器人，它更想成为机器人产业的底层平台供应商。不同厂商可以有不同本体，宇树、Figure、Agility、波士顿动力、NEURA，都可以做自己的机械结构、关节、电机、控制器和整机产品。但只要这些本体接入 Isaac、GR00T、Cosmos、Jetson、Newton，机器人训练和部署链条中的大量计算，就会回到英伟达的平台上。所以，宇树在这件事里扮演的角色，是一个本体入口。这个入口有两个特点。

第一，宇树有成本和工程化优势。相比许多欧美人形机器人公司，宇树更擅长把复杂机器人做成可购买、可交付、可迭代的硬件产品。H2 Plus 官网显示，它搭载 Jetson T5000 机载计算模块，配合双 Sharpa Wave 灵巧手后总自由度达到 75 个，并面向科研和二次开发场景。

第二，宇树已经有研究者基础。G1、H1、H2 等产品在高校和开发者群体中有一定可见度。如果英伟达想让 GR00T 这样的机器人基础模型快速进入实验室，它需要一个足够便宜、足够开放、也足够有表现力的本体平台。这就是为什么英伟达会把参考设计先放在学术研究场景。科研市场规模不一定最大，但影响标准。论文、开源代码、benchmark、实验范式，往往先从高校和研究机构里长出来。英伟达让 Ai2、ETH Zurich、Stanford、UCSD 这类机构先用这套参考设计，本质上是在抢机器人研究的默认开发环境。定义标准是锚定长期市场的关键环节，标准一旦成型，未来更多机器人将从一开始就与英伟达的技术栈深度绑定。

缺的不只是本体，还缺数据

有了本体，只解决了第一层问题。机器人训练真正麻烦的地方，是数据。

大模型训练有一个天然优势：互联网已经积累了海量文本、图像和视频。语言模型可以从人类写过的话里学习语言，从网页和视频里学习世界知识。

但机器人需要真实的物理交互动作。如手怎么抓杯子，脚怎么找平衡，关节怎么分配力矩，碰到桌沿时如何调整路径，物体滑落时怎么补救。

更麻烦的是，这些机器人动作数据天然碎片化。人类视频是一种格式，动捕数据是一种格式，遥操作数据是一种格式，仿真轨迹是一种格式。不同机器人本体的关节数量、自由度、手部结构、传感器配置又不一样。一个人类抬手的动作，不能直接变成某台人形机器人的控制指令；一台机器人学会的动作，也不能直接迁移给另一台机器人。所以，机器人预训练要规模化，先要解决「动作怎么表示」的问题。

这就是英伟达的 SOMA-X 这一类工作的意义。它要解决的是不同参数化人体模型之间的不兼容问题，例如 SMPL、SMPL-X 等模型在网格拓扑、骨架结构、形状参数和单位约定上的差异。论文提出通过统一网格、统一骨架和统一姿态抽象，让不同人体模型和动作数据可以进入同一套表示层。

如果机器人要学习人类动作，就必须先把人类动作转成统一的、可计算的、可迁移的表征。否则，数据越多，格式越乱；模型越大，训练越难收敛到可用动作。从这个角度看，机器人不只需要真实本体，还需要「数据本体」。

真实本体解决的是动作最终落到哪台机器上；数据本体解决的是动作在训练系统里如何被记录、生成、转换和复用。

Isaac Newton 成为具身训练场

近代物理学之父 Isaac Newton 的名字，像是被英伟达拆进了自己的机器人技术体系里：Isaac Lab 负责机器人学习和训练流程，Newton solver 负责物理仿真与求解。

这当然不一定是英伟达刻意设计的命名意义，但作为产业隐喻，它非常准确。机器人面对的世界，仍然是牛顿式的物理世界。重力、摩擦、接触、碰撞、惯性、关节约束、力矩限制，这些东西不会因为模型参数变大而消失。语言模型可以在 token 空间里试错，机器人却必须在物理世界里承担动作后果。所以，仅仅有动作数据还不够，动作还要被放进物理环境里摔打。

Isaac Lab 的位置在这里。它是英伟达面向机器人学习的训练框架，用来组织强化学习、模仿学习、运动控制和操作任务。最新 Isaac Lab 3.0 Beta 的方向很明确：多物理后端、可插拔渲染器、Warp-native 数据管线、kit-less 安装模式。这些变化说明 Isaac Lab 正在从「Isaac Sim 上的训练工具」，变成更独立的机器人训练平台。

Newton solver 的位置更底层。它处理的是碰撞、接触、关节、摩擦、约束、可微物理等问题。Newton v1.3.0 在 2026 年 6 月发布，新增和强化了面向强化学习的 solver reset、SDF/hydroelastic 碰撞、ray query、USD/MJCF 资产导入、viewer/rendering 等能力。这些功能不太适合发布会造势，但它们决定机器人训练能不能工程化。

如果说 SOMA-X 解决的是动作如何统一表示，Isaac Lab 和 Newton 解决的就是这些动作如何在物理规则下训练、验证和优化。因为机器人行业最难的，不是让仿真视频看起来漂亮，而是让仿真里训练出来的策略在真实本体上还能工作。仿真到现实之间的差距，才是 Physical AI 的硬问题。

也正是在这个意义上，Isaac Newton 这个名字隐喻成立了。英伟达想做的，不是给机器人装一个聊天模型，而是给机器人造一所「物理学校」：先把动作变成数据，再把数据放进仿真，再让策略在虚拟世界里经历足够多的物理后果，最后迁移到真实本体上。

英伟达的机器人训练栈，正在成型

把这些组件放在一起，就能看到英伟达真正的技术栈，正在贯穿机器人训练的全链路。

本体提供真实承载，动作表征提供数据格式，GR00T 把感知和动作接起来，Cosmos 补足世界模型和合成数据，Isaac Sim 提供仿真世界，Isaac Lab 组织训练，Newton 处理物理，Jetson 负责部署，底层则全部回到 GPU 和 CUDA。

这就是英伟达熟悉的生意结构。它不一定拥有终端应用，但它要拥有开发路径。只要开发路径被它定义，产业越往前走，算力需求越会回流到它的平台。

Physical AI 是叙事，本质回到了算力

英伟达很擅长制造概念。AI Factory、Omniverse、Digital Twin、Physical AI、World Foundation Model、World Action Model，这些词都带着黄仁勋式的叙事风格。它们足够大，足够顺，足够让投资者和开发者相信下一波浪潮正在到来。

但如果把话说得更直接一点，英伟达还是在做自己最擅长的事：把下一个技术问题，变成下一个算力需求。大模型时代，GPU 需求来自 token。模型要读更多文本、生成更多内容、处理更多上下文，就需要更多训练和推理算力。机器人时代，GPU 需求会来自 action。一个 action 背后，不只是一个动作指令。它需要感知输入、语言理解、动作生成、物理仿真、策略训练、失败回放、真实本体验证和边缘端实时控制。这其中，每一步都要算力。

英伟达的 GR00T N1 技术报告《An Open Foundation Model for Generalist Humanoid Robots》显示，这类机器人基础模型训练使用了真实机器人轨迹、人类视频和合成数据的混合数据，并采用视觉-语言-动作架构，把理解和动作生成连接起来。

Cosmos 3 则更进一步，把语言、图像、视频、音频和动作序列放进一个统一的世界模型框架，用来服务 Physical AI。行动越复杂，仿真越多；仿真越多，GPU 消耗越大；GPU 消耗越大，英伟达的生意就越稳。英伟达想把 AI 的算力叙事，从 token 扩展到 action。牛顿当年把物理世界抽象成可计算的规律。

英伟达今天想做的，是把机器人行动抽象成可训练的算力流程。从人类动作到统一表征，从统一表征到仿真训练，从仿真训练到真实本体，从真实本体再回流数据。每一步都被软件化、平台化、GPU 化。

这不是单纯的机器人故事，而是英伟达把算力增长从语言世界推向物理世界的布局。宇树提供了一个足够具体的本体样本，让这套叙事第一次变得可触摸；SOMA-X 这类工作让动作数据有了统一入口；Isaac Lab 和 Newton 把动作放进物理仿真中训练；Cosmos 和 GR00T 则把世界模型与机器人基础模型接上。

最后，所有这些都会回到同一个问题：机器人越多，动作越多，仿真越多，训练越多，谁来提供算力？英伟达已经给出了自己的答案。它不一定要造机器人，但一定要让机器人变成新的算力生意。

宇树风波背后，英伟达的新算力生意

英伟达在找本体入口

缺的不只是本体，还缺数据

Isaac Newton 成为具身训练场

英伟达的机器人训练栈，正在成型

Physical AI 是叙事，本质回到了算力

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？

宇树风波背后，英伟达的新算力生意

英伟达在找本体入口

缺的不只是本体，还缺数据

Isaac Newton 成为具身训练场

英伟达的机器人训练栈，正在成型

Physical AI 是叙事，本质回到了算力

相关文章

不愿只做车企的理想，如今选择做 AI

极佳视界再获 10 亿元融资，世界模型如何走进家庭和工厂？

机器人开始「吃数据」：从印度数据工厂到百亿美元人形机器人的隐秘生产链

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？