9 月 23 日,智元机器人宣布其通用具身基座大模型 GO-1(Genie Operator-1)正式在 GitHub 开源。这是继今年 1 月 AgiBot World 具身智能百万真机数据集开源后,智元向行业投下的又一颗「技术炸弹」,短短八个月,从数据到模型,智元几乎把「家底」公开。
并且 GO-1 还是全球首个采用 Vision-Language-Latent-Action(ViLLA)架构的通用具身智能模型,它的开源降低了具身智能的技术门槛,有望加速机器人走向产业落地。
GO-1 的核心是 Vision-Language-Latent-Action(ViLLA)架构,即通过引入隐式动作标记,弥合图像-文本输入与机器人执行动作之间的语义鸿沟。
一句话解释:它先把「看见什么(视觉)、想干什么(语言指令)」抽象成一串低维的、具有语义的暗号(Latent Action),再通过一个专门的动作解码器把这个「暗号」翻译成机器人具体的关节运动指令(比如关节怎么转、手指怎么动等)。
ViLLA 架构相比较 VLA 来说相当于机器人给自己加了一段内心戏,能让自己更好地理解人类的意图,从而精准完成动作执行,完成相应的任务,可以规避掉许多「答非所问」的情况。
而 ViLLA 架构的核心优势源于三层协同设计的精妙逻辑:
- VLM 多模态理解层:基于 InternVL-2B 构建,可以处理多视角视觉图片、力觉信号、自然语言指令等多模态信息,为系统提供场景感知与指令解读能力,是机器人「看懂世界、听懂需求」的基础。
- Latent Planner 隐式规划器:作为「决策大脑」,通过预测隐式动作标记实现复杂任务的高层次规划和理解,例如接到「悬挂衣服」指令时,能先规划出「抓取衣领 – 定位挂钩 – 调整姿态」的动作逻辑。
- Action Expert 动作专家:依托扩散模型生成高频率、高精度的连续动作序列,确保机器人完成拧瓶盖、叠衣物等精细操控任务,改善了传统模型动作僵硬、精度不足的痛点。
为降低开发者使用门槛,智元机器人的 Genie Studio 一站式开发平台,可为开发人员和合作伙伴提供全栈解决方案,平台深度集成了 AgiBot 开源的百万规模真实世界和仿真数据集,提供专有和主流的基础模型,包括完整的仿真工具链,提供高保真仿真数据,实现一键实机部署。
从数据采集到模型部署,平台提供的 GO-1 基座模型可实现「开箱即用」,集成了 Video Training 方案与统一训练框架,搭配完整的开发工具链,让开发者无需额外拼凑工具。
并且它支持真机一键编译与部署功能,能帮助缩短开发周期、提升开发效率,为具身智能技术更快落地到实际应用中提供有力支持。
GO-1 虽然只基于 AgiBot G1 机器人数据预训练,但已在多类硬件与场景中展现出强大的适配能力。在跨本体验证中,该模型成功适配松灵机器人、方舟机器人、Franka 机械臂等不同本体,其运动学特性与控制接口的兼容性验证了 GO-1 具备良好的可移植性。
性能测试数据更直观展现了 GO-1 的技术能力:
- GenieSim 仿真评测:以 3.793 的总分保持领先,在传送带移动物体打包、超市补货、超市商品打包等任务中得分领先明显,展现出了对复杂场景的强适应力。
- Libero 仿真评测:在 Libero Spatial、Libero Object 等细分维度保持优势,印证了其在空间感知、物体操作等方面的核心能力。
- 真机实验:在 Genie G1 真机实验中,GO-1 在补充饮料、折叠短裤、清理餐桌等日常任务中表现突出,相比于其他 SOTA 模型保持领先。
从数据集开源到模型开源,智元机器人正在构建一个低门槛、高协同的具身智能生态。
值得一提的是,在此前不久,智元正式发起 Genie Trailblazer 全球招募计划,向全球的具身智能研究团队发出邀请,聚焦通用具身智能模型、具身世界模型、高级遥操作三大核心探索方向。
再加上如今智元机器人 GO-1 通用具身基座大模型的全面开源,可以窥见的是,智元正通过「资源开放 + 人才聚合」的双重布局,将具身智能生态的构建推向更深维度。
不难预见,随着高质量数据、成熟模型与全球顶尖研究力量的深度融合,具身智能真正走进人们生活的未来不会太久。