英伟达用 SimFoundry,打通机器人 Real2Sim 最后一公里

近年来, DexMimicGen 等自动化数据合成工具和 PolaRiS、Isaac Sim 等仿真工具为解决机器人数据与训练问题,提供了可扩展的替代方案。

但是让开发者通过「CAD 建模、提供物理约束、摆放场景」等步骤手动布置仿真环境,并在视觉、几何和动力学上实现 Real2Sim 仍面临较大挑战。

2026 年 6 月 26 日,英伟达、斯坦福大学李飞飞团队联合发布技术报告《SimFoundry: Modular and Automated Scene Generation for Policy Learning and Evaluation》,并推出自动化 Real2Sim 基础设施 SimFoundry

SimFoundry 瞄准的核心问题就是:低成本、自动化地将一个真实物理环境,转化为一个视觉、几何、物理都高度保真的仿真环境,同时在仿真中测试和训练机器人策略。

为此,SimFoundry 将三维重建、物体理解、物理属性生成、仿真环境构建等流程整合为一套模块化自动流水线,大幅减少人工建模和场景配置工作,让 Real2Sim 首次具备了规模化应用的潜力。

SimFoundry 如何实现 Real2Sim

SimFoundry 是一个模块化、自动化的系统,能够从一段输入的真实世界 RGB 视频出发(左图),自动重建出可交互、带物理属性的仿真场景(数字孪生),并进一步生成物体、场景、任务三个维度的多样化变种(数字表亲,右图)。

接下来,本文从架构、训练角度拆解上图中的 SimFoundry 的 Pipeline (自动化流水线),探究其如何实现「场景生成」和「策略训练」两大功能。

  • Extraction(信息提取)

SimFoundry 默认提取视频的第 0 帧作为代表性帧,通过 DepthAnything3 和 FoundationStereo 深度估计模型,将 RGB 图像和双目图像转化为深度图 RGB-D 。

结合可由 DA3 模型反推出的相机内参,系统进一步将 RGB-D 数据升维重建为场景的 3D 点云。

然后, SimFoundry 利用 SAM3 进行图像分割,提取桌面平面,并将重建结果对齐到仿真器的世界坐标系。再利用通用 VLM 模型 Gemini-Pro-3 检测场景中的对象,并用 SAM3 迭代分割前景物体,最后提取物体分割的二维掩码、物体相应的 RGB 与深度像素,用于后续网格生成与对齐。

每次提取物体信息,SimFoundry 都利用图像与深度的修复技术将该物体从当前的 RGB‑D 观测中移除,并重复这一过程,直到场景中不再有前景物体,从而完成视频信息提取。

  • Generation(资产生成与物理恢复)

从「Extraction」中的得到的每个物体裁剪图,利用通用图像编辑 VLM 模型 Gemini-Pro-3-Image-Preview 进行上采样(提高图像分辨率),再利用 2D-to-3D 网格模型 Hunyuan2.1 生成视觉网格。

随后将物体的二维掩码、对应的 RGB-D、几何点云对齐到重建的场景中,利用 FoundationPose 模型额外精细优化并得到物体的位姿。对于「柜子」、「抽屉」等被 VLM 识别成的关节式物体,系统通过 P3-SAM 网格分割,然后利用 VLM(Actor-Critic 框架)生成 URDF 格式关节参数。

最后,使用 CoACD 生成碰撞几何体,并通过「Extraction」观测到的对象外观来分配物理属性(如质量和摩擦系数)。所有对象生成、对齐和标注完成后,在物理引擎 PyBullet 中组合场景,解析对象穿透以获得稳定配置,并将生成的仿真场景导出到下游机器人仿真器(如 IsaacLab)。

  • Augmentation(数字表亲增强)

作为 SimFoundry 突破传统数字孪生局限的核心模块,它会对重建完成的初始场景按对象实例场景布局任务规范三个维度进行了扩展,以用于后续机器人策略训练和评估。

如上图,最上面是真实世界的 RGB 图像,中间一行展示了 SimFoundry 如何重建真实世界输入中的对象、布局和场景结构,而底部一行则展示了重建出的数字孪生如何被扩展为合理的数字表亲。从最下面那批图不难发现,扩展的合理的「数字表亲」可以显著提高机器人数据量,节约大量原本用于搭建仿真场景的「专家成本」。

如上图,对于重建场景里的对象实例,SimFoundry 通过提示词工程,利用 VLM 规范化物体名称(去除材质、尺寸、瞬时状态等无关信息)和将物体分解为功能部件(如手柄、盖子、底座),针对每个功能部件,VLM 会沿几何、拓扑、视觉三个预定义维度提出候选变体,同时禁止不切实际的变体(如红色香蕉)。

接着,SimFoundry 将候选变体输入图像编辑 VLM 模型生成候选图,要求仅改变指定部件,保持其他部件不变,输出半透明背景图像,并参考原始场景图以保持风格一致。最后,存储通过「真实世界合理性」和「场景一致性」双重校验的变体数据,供下游仿真。

对于重建场景里的场景布局,SimFoundry 先让 VLM 模型根据任务锚定一个物体,并让其他物体从「预定义空间列表」(如 OnTop, InSide 等)中采样,生成有意义的替代布局,再从 BEHAVIOR 数据集中依据质量、体积等类别过滤选择干扰物。最后,放置物体时确保不会「碰撞穿模」,以保证物理稳定。

如上图,对于重建场景中的任务实例,SimFoundry 先获取仿真场景的 2D 图像和可交互物体列表,再加入机器人硬件约束(如最大夹爪开度、单臂/双臂模式)和可选的物体级约束,并将场景图、物体列表、物理约束等信息提供给作为「机器人专家」的 VLM ,让 VLM 按 YAML 格式解析从初始状态发生有状态变化的明确任务,自动编译为标准化文件。

后续分别针对对象表亲、场景表亲、任务表亲作消融实验,探究各个「表亲」对整个 SimFoundry 系统泛化能力的影响。实验证明,三种「表亲」分别让机器人策略在未见过的物体、未见过的布局、未尝试的任务都获得成功率的提高。

值得一提的是,对于场景的背景重建与对齐,SimFoundry 不仅可以完全复用「Extraction」阶段的 RGB 视频生成背景,还可以通过人工二次拍摄无物体的「纯背景」视频结合交互式编辑器(GUI),用键盘调整背景直至视觉上的完美匹配。

然而,根据上表,自动管线在 PSNR、SSIM、NCC(归一化互相关)等所有 7 项指标上,全面碾压手动管线。原因在于自动管线不需要「估计」对齐,而是「推导」对齐。而手动管线需要人类肉眼去对齐六自由度的位姿,只要旋转误差 1 度,在远距离场景下像素就偏差巨大。

SimFoundry 如何助力机器人策略训练

SimFoundry 作为英伟达推出的自动化 Real2Sim 基础设施,Real-to-Sim 策略评估无疑是最核心且有说服力的实验。实验设置了 7 个任务,5 种前沿策略(π0, π0.5, GR00T N1.6/N1.7, DreamZero),对比真实世界成功率与在 SimFoundry 仿真环境中的评估结果。作为对比的 SOTA (目前世界最好)基线是 PolaRiS。

如上,文章统计汇总得到 SimFoundry 的 Pearson 相关性(判断仿真中测得的任务成功率与真实世界中测得的成功率之间是否存在线性关系,越高越相关)达到 0.911,MMRV (判断仿真是否把策略的优劣顺序搞错,越低越好)仅为 0.018,比 PolaRiS 高出 0.59 以上。

如下表,通过把长程任务拆解成子任务的方式,策略评估进一步将相关性从 0.90 提升至 0.95。

另外,SimFoundry 最大的创新点在于,相比于传统「数字孪生」只能生成单一场景,导致策略容易过拟合,「数字表亲」从语义层面改变物体实例、空间布局和任务目标,同时严格保持任务相关性,为策略提供了可控且合理的数据多样性,将显著提升训练模型的泛化能力。

文中设置了 YAM 双臂和 DROID 单臂平台,其中 YAM 双臂用的从零开始训练的简单流匹配策略 ,DROID 单臂平台用的是微调过的 π0 和 π0.5 模型。

如上图,其中 Real Cousins 表示在真实世界测试全新的物体,是最能验证泛化能力的指标。当只用 Twin (数字孪生)训练时,Sim Cousins 和 Real Cousins 都较低,说明此时仿真和真实世界中遇到新物体时都没办法很好泛化。

随着用于训练的「数字表亲」数量的增加,各个任务的 Sim Cousins 和 Real Cousins 都有明显提升,证明了「数字表亲」可以提升模型的泛化能力。

最后,文中验证了 SimFoundry 的零样本迁移能力,即不加入真实数据,直接使用仿真中训练得到的策略。其中 YAM 在「Pot on Stove」(双手端锅)的任务成功率为 99%,DROID 在 「Stack Dishware」(捡碗、放碗、捡杯、放杯)的任务成功率为 100%。

并且,附录中也指出,只要允许一个人类操作员用键盘对齐网格与点云 3 分钟(每个物体),F1 分数(衡量 3D 几何重建的精度)直接飙升至 0.93 – 0.99。

事实上,产业界都不想抛弃自己的真实数据,对此文章也验证了加入部分真实数据后的训练表现。其中 -S 为纯仿真训练、-R 为纯真实数据训练、-co-train 为联合训练。如图,联合训练几乎将真机任务(- Real)成功率拉满。

综上,SimFoundry 实验设计全面,核心指标(评估相关性)具有说服力,涵盖了从重建质量到下游策略性能的完整链条。它证明了整个 Real2Sim → 数据生成 → 策略训练 → 真实世界部署的完整闭环是可行的。

SimFoundry 既是数字场景的「造物主」,也是机器人策略的「好教练」。

英伟达为何需要 SimFoundry

SimFoundry 并非横空出世,它是 NVIDIA 在 Physical AI(物理 AI)战略拼图中的关键一环。

SimFoundry 可以赋能底层基础设施,激活 Isaac 生态的「高保真引擎」。Isaac Lab / Isaac Sim 作为 NVIDIA 最核心的物理仿真平台,拥有强大的物理引擎和渲染能力,但需要繁琐的手工建模,而 SimFoundry 通过自动化的视频重建技术,将杂乱、不规则的真实场景转化为标准的 USD 格式资产,补齐了 Isaac 的短板。

SimFoundry 也可以喂养上层智能模型。它生成的「数字表亲」提供了海量的、高保真的合成训练数据,帮助 GR00T(NVIDIA 乃至业界最前沿的通用机器人基础模型)获得在更广泛环境下的泛化能力,同时 SimFoundry 重建的「数字孪生」环境提供了极高保真的评估基准。

引人关注的是,SimFoundry 既可以链接数据生成工具(MimicGen),也可以扎根真实数据源头(DROID / EgoData)。

MimicGen 可以利用少量的原始演示,结合 SimFoundry 物体表亲的变化,自动生成成百上千条多样化的轨迹数据,有望彻底解决机器人训练中的数据饥渴问题。

同时,SimFoundry 可以从 DROID 平台采集的真实视频和 EgoData 中汲取「物理基因」,将真实物体的几何、材质等信息复刻进仿真。它确保了整个技术栈的底层逻辑,即数据的源头是真实且物理可解释的。

总之,SimFoundry 作为 NVIDIA Physical AI 的关键枢纽。它将真实世界转化为仿真资产,向下补齐 Isaac 建模短板,向上为 GR00T 提供数据与基准。同时链接 MimicGen 和 DROID,打通数据采集、生成到训练评估的全链路闭环。

写在最后

SimFoundry 最大的贡献是将 Real2Sim 从一项费时费力的手工劳动,升级为全自动、可扩展的流水线,并通过「数字表亲」机制彻底释放了仿真数据的多样性潜力。

相比于传统 Sim2Real 需要大量专家进行场景设计、物理参数调优,从而造成复杂度上升和巨大人力成本。

由 Real2Sim 主导的 SimFoundry 合理利用 VLM 模型(Gemini 等)深度参与端到端自动化的场景重建任务,并且成本构成主要是算力成本,重建一个场景的成本可预期,同时符合英伟达卖算力的商业逻辑。

最新消息是英伟达于 7 月初开源了一个机器人持续学习框架 —— ASPIRE,作为机器人版的 Coding Agent,可以与 SimFoundry 相互配合,在大量仿真重建场景中跑任务、从失败中修 bug、攒 Skill Library,拼起来就是具身智能从仿真供给到技能沉淀的闭环。

因此,对于未来的机器人训练,SimFoundry 指明了一条清晰的道路:真实世界提供场景模板,基础模型负责理解,仿真器提供试错沙盒,机器人 Agent 沉淀技能 Skill。这种范式或许会加速具身智能向通用化的演进。