与 OpenAI 分道扬镳后,Figure 机器人反而更强了?

最近,Figure 创始人 Brett Adcock 参加了播客节目《Shawn Ryan Show》,在长达 3 小时的访谈中,Brett Adcock 就机器人技术路径、产业应用和 AI 泡沫等问题进行了详细探讨。

作为全球估值最高(390 亿美元)机器人公司的创始人,Brett Adcock 素有「马斯克 2.0」的称号。所以在机器人领域,Figure 和特斯拉都偏爱追求百万台级别的产能。

在采访中他提到,目前 Figure 的工厂每 90 分钟就能产一台机器人,满负荷产能约为每年 4 到 5 万台,长期目标是希望未来 10 年内,能达到每年 100 万台的产能。

而对于很多人在聊的 AI 泡沫问题,Brett Adcock 则认为现在才是 AI 大规模落地物理世界的起点而已。

只不过现在机器人还太缺数据,对此他也给出了一个比较激进的观点:「如果能立刻获得足够的数据,输入 Helix 02 模型,我相信我们现在就能解决通用机器人的难题。」

所以在这个过程中,Figure 也正在构建一个数据、模型、硬件、规模落地产生数据后再反哺模型,从而提升机器人能力的自我迭代闭环。

编程行不通、移动操作非常重要

最近一两年因为 AI 赋能,机器人行业出现了非常大的变化,在这个过程中,依靠编程驱动的机器人已经无法满足复杂场景的需求了。

Brett Adcock 给出了一个非常直观的解释:一台人形机器人,大约有 40 个自由度,如果计算其所有可能姿态,其数量是:360 的 40 次方(远超宇宙原子数量),这也就意味着,不可能用代码穷举这个系统。

对于机器人来说,再简单的动作,背后都是一个全身协调问题,而这一切都是在动态平衡中实时发生的:

  • 主控制器:每秒钟会向所有关节发送 200 次甚至更多的指令,确保机器人能保持平衡。
  • 力反馈系统:频率达到 5 到 6 千赫兹,直接传输到马达的控制系统。数据再反馈到主控制器,主控制器通过控制软件,在每一个时间点告诉整个身体该做什么,保持平衡。

在这个过程中,Figure 也逐渐发现了如果只聚焦机器人的上半身操作,很难保证在真实环境中的稳定性。毕竟人类有时候在干活的时候,也会边走边工作,姿态不总是一成不变的。

所以 Figure 在年初发布了 Helix 02 模型,其中 System 2 负责理解任务和场景,System 1 会持续地产生全身动作。

而新加入的 System 0 就可以理解为「肌肉记忆」,是一层让所有动作成立的身体基础。也正因为有这一层,System 1 才可以放心地生成连续动作,不用每一步都考虑机器人会不会倒下。

不过 Brett Adcock 也坦言,即便是自己公司的机器人产品在家里测试,他也不太放心让机器人和孩子单独相处一整天。

尽管机器人有一定的安全策略,但要让它们真正理解现实生活中的危险边界,还有很长的路要走。

与 OpenAI 分手,AI 绝不存在泡沫

作为一家成立于 2022 年的初创公司,Figure 能达到如今的 390 亿美元估值,在成立初期也离不开大厂的资金支持。

2024 年初,OpenAI 就参与了 Figure 6.75 亿美元的 B 轮融资,随后 OpenAI 团队也加入 Figure 董事会,合作推进人形机器人的模型研发,但仅仅一年的时间,双方就选择了分道扬镳。

Brett Adcock 谈到这个话题时并没有觉得可惜,他认为 Figure 应该独立研发 AI 技术,加上未来可能会和 OpenAI 成为具身领域的竞争对手,所以为了规避信息共享带来的长期风险,双方选择分道扬镳也是必要的。

值得一提的是,其实 OpenAI 在推出大家熟知的 ChatGPT 之前,也有过一段时间的机器人研发史:

  • 2017 年:在机器人控制算法领域,发布 Roboschool 开源软件。
  • 2019 年:在灵巧操作方面,研发出能用单只机械手复原魔方的系统。
  • 2020 年底到 2021 年夏:因为训练数据匮乏等原因,解散机器人团队。

相比较具身模型的数据,大语言模型的数据显然来源更广,更容易获得,所以不久后 OpenAI 就带来了轰动世界的 ChatGPT,加速了整个 AI 领域的发展。

但时间过去三年多,这段时间来关于 AI 有没有泡沫的讨论也越来越激烈,毕竟连 OpenAI 都要在 ChatGPT 里面加广告来变现,并且还关闭了非常「烧钱」的 AI 视频生成工具 Sora。

对此,Brett Adcock 坚定地认为,AI 绝不存在泡沫。相反,现在大家正站在 AI 大规模落地物理世界的起点,如果能在物理世界部署数百万台人形机器人,也会带来前所未有的生产力提升。

而且他认为在 2 年内,机器人就可以很好地完成生活中的琐事,成为人类的助手。

不过在这个过程中,数据成为了整个行业非常大的卡点,目前全球各大机器人公司都在这个问题上发愁,真实数据好,但成本高、不容易获得;互联网数据规模大,但数据质量不太高,所以很多企业折中选了仿真数据。

其中,Figure 主要还是发力真实数据这个领域,在去年完成 C 轮 10 亿美元融资期间,Figure 就宣布了与全球最大的另类资产管理公司之一 Brookfield 合作,为训练 Helix 模型创造大量真实家庭场景。

尽管数据已经是 Figure 区别于其他机器人公司最大的壁垒了,但 Brett Adcock 还是觉得数据不够用:「如果能立刻获得足够的数据,输入 Helix 02 模型,我相信我们现在就能解决通用机器人的难题。」

Brett Adcock 这么说也有他的道理,毕竟此前不久其公布的演示视频中,Figure 就强调机器人自主整理客厅就只是通过增加新的训练数据获得的,并没有针对每个动作来进行单独设计。

所以只要数据足够,相信 Figure 还是能够带来一些机器人领域更大进展的,只是真实数据这条路并不好走,依然需要时间和资金来沉淀。

人形机器人会首先落地商业领域

在人形机器人落地应用这个领域,很多人认为既然目标是进入家庭,为什么不直接从家庭开始?

但 Brett Adcock 给出的判断非常明确,人形机器人会首先落地商业领域。这背后其实也是当下的技术和经济结构共同决定的结果。

单从技术角度看,人形机器人落地最大的难点就是能否在复杂环境中稳定完成任务,而家庭场景就是一个高度复杂的环境:

  • 空间布局高度个性化,每个家庭都不同。
  • 物体种类极其丰富,且不断变化。
  • 人类行为不可预测,尤其是孩子和宠物。
  • 任务没有明确边界,随时变化。

更关键的是,这些变量往往不独立存在,经常是叠加在一起的,非常复杂,机器人目前还做不好这些。

相比之下,Brett Adcock 也提起了商业场景的优势,像制造、物流等场景。有固定的工作区域,工作流程可以写在纸上,每一个步骤都有明确的要求,安全防护的难度更低。

所以,这也让问题从开放世界变成了受限系统。也就是说,商业场景相对容易收敛,这对于一个依赖数据驱动的机器人系统来说,非常重要。

并且还有一个更现实的因素,那就是经济结构。Brett Adcock 提到一个很直接的数据,全球约 40% 的 GDP 来自人类劳动力。

所以人形机器人如果要产生真实价值,最直接的切入点就是,替代具有明确经济价值的劳动,而商业场景,恰好满足三个条件:

  • 需求刚性,企业必须完成这些工作 。
  • 成本可量化,可以直接对比人工成本,回报明确,ROI 清晰。
  • 盈利空间大,家庭机器人的月费大概在 500 美元左右,商业领域的收费是家庭的 10 倍以上。

所以除了家庭场景那些进展,Figure 在商业领域同样有许多成果,比如 Brett Adcock 聊到的 Figure 机器人在宝马汽车工厂工作,这也是他们第一次把机器人部署到真实的工业场景,去完成实际的工作。

在宝马工厂,Figure 机器人的核心工作就是抓取钣金件,放到指定的夹具上,并且每天有 10 小时的轮班。

在工厂实际工作时,很多人都会质疑机器人到底能不能长时间稳定运行,如果只能撑得住一周、一个月,那实际可用性就会大打折扣。

但 Brett Adcock 透露,核心工作的机器人即便连续上班六个月,硬件也完全没有问题。所以他也在这个过程中逐渐思考了一个问题,能不能造出成千上万台机器人,在全球各地的工厂落地。

90 分钟产一台,量产不是最大问题

对于机器人来说,目前的商业领域是不错的落地场景,但这些同样需要量的支撑,才能逐渐兑现业绩,所以规模化生产机器人也成为了各大厂商要去面对的问题。

Brett Adcock 表示,目前 Figure 的制造工厂生产线现在每 90 分钟就能产出一台,后续产能还会持续增长。

并且目前的工厂满负荷产能约为每年 4 到 5 万台,Figure 的长期目标是希望未来 10 年内,能达到每年 100 万台的产能。

Brett Adcock 强调,现在机器人行业有两个核心问题,一个是大规模量产,另一个就是技术,让机器人能在家庭场景中完成所有的工作。

但他认为,目前最大的难题不是量产,而是技术,即能否把机器人放到一个从未去过的家庭,让它在 5 小时内,自主完成所有需要的家务。谁能第一个实现这个目标,谁就会成为全球最大的公司。

过去一年,Brett Adcock 几乎在所有公开场合反复强调,系统级的自主行为能力,也就是机器人能不能在没有人为干预的情况下,理解环境、规划任务,并持续执行。

而围绕这个目标,Figure 在做的事情,其实也可以归结为 3 条主线:

  • 数据:构建一种更接近人类行为的数据体系,围绕完整任务流程展开,并且在落地过程中逐渐形成数据飞轮。
  • 模型:把视觉、语言、动作融合成一个连续决策系统,在这个基础上进一步强调高频、低延迟的身体控制能力,并加强机器人的移动操作能力。
  • 硬件:在 Figure 的逻辑里,硬件不只是一个先验固定的载体,更需要围绕模型能力去反向设计,不断迭代。

把这三点合在一起,其实可以看到一个更清晰的趋势,Figure 正在尝试构建一个完整的软硬件协同再到落地系统闭环,在量产落地中,数据不断跑起来后会反哺模型,从而提升机器人的能力。

就像 Brett Adcock 前面提到的,只要数据足够,现在就能解决通用机器人的难题。

从这个角度看,产能的意义也在发生一些细微的变化。即将机器人大规模送入真实世界,启动决定上限的数据引擎。

一旦这个闭环真正跑起来,行业的竞争逻辑就变成了谁的系统能够更快进入现实、获取更多数据、再以更快速度完成自我迭代。

所以 Figure 真正走的其实是一条更长期的路径,让机器人在现实世界中持续学习,直到有一天,它们可以像人一样,在陌生环境中自己找到答案。