1X AI 副总裁 Eric Jang:能跳舞的机器人很酷,但只能在家里跳没用

只会跳舞的机器人没用?

近日,成立于挪威的机器人初创公司 1X AI 副总裁 Eric Jang 与海外媒体 The Humanoid Hub 进行了一次深入访谈。

在访谈当中,Eric Jang 既表达了对特斯拉、宇树、众擎等公司机器人的赞美,连声说 Cool,也谈到机器人行业对世界模型不够重视,只在工厂重复劳动没有未来。

谈到特斯拉 Optimus 跳舞时,Eric Jang 连说两个 Cool,表达了对于机器人跳舞的认可,但同时他也指出机器人如果只能跳舞,那在家庭环境中就没有用处。

在其他多数机器人公司聚焦更多工业领域时,1X 选择攻克最困难的机器人家庭应用场景。他表示,家庭领域是 1X 的优势,而且也符合 1X 对未来通用智能真正需要具备的特质的愿景。如果只在工厂中重复单一任务那就无法收集到多样化数据,显然家庭环境中非结构化场景更多,收集的数据更加丰富。

他谈到,现在的人形机器人都不能上下楼,限制了在家能做的事情。同时能做的事情也太少,大多数实验室也只是让它们站在桌子前进行一些操作,像弯腰捡东西放回桌上,或者踮起脚尖从高处架子上取物品等操作还是欠缺。

相比较特斯拉、宇树、Figure 等公司构建的 AI,Eric Jang 表示,1X 的主要优势在于硬件策略,在 AI 策略上采取非常全面的「家庭优先」方法,旨在解决家庭中合理的家务。1X 的 Redwood 是一个可以控制 Neo 机器人全身的视觉-语言-动作模型(VLA 模型),包括下半身、手臂、手和颈部等全部同时控制。并且 1X 是首批真正以全身方式将所有要素整合在一起的人形机器人公司之一。

最后他指出,在机器人领域人们尚未真正认真对待世界模型。而 1X 已经在世界模型方面投入大量资金,认为未来世界模型将变得更加主流。

对于这次访谈,42 号电波在不改变原意的前提下进行了编译,以下内容仅供参考。

Q:你在湾区开设了森尼韦尔办公室,现在又要搬到帕洛阿尔托。是什么促使了这一举措?团队对新办公室适应得如何?

A:我们现在要搬到一个大得多的办公室,那里有硬件、运营、AI 团队、软件团队,所有部门都在同一屋檐下。而这样做的主要原因是团队规模已经有了很大的增长,我们需要尽可能快地行动。把所有人集中在同一栋楼里,我们就能迅速行动。

Q:当其他类人机器人公司正在解决更结构化的工业应用问题时,为什么 1X 选择攻克类人机器人领域最困难的挑战——家庭应用,这不仅在硬件安全方面,而且在机器人智能方面都极具挑战性。

A:家庭领域既符合 1X 的优势,也符合我们对未来通用智能真正需要具备的特质的愿景。一方面,我们有过去十年一直在构建的硬件战略,其机器人采用高度柔顺且安全的肌腱驱动执行器。这是非常以客户安全为导向的执行策略。这让我们能够制造出更轻便、更安全的机器人,它们可以与人共处,也能在可能发生意外接触的环境中运行。而这一直是我们对在人类周围工作的机器人会是什么样子的认知中一种核心的 DNA 组成部分。

另一方面,我们正成为一家 AGI 公司,而不仅仅是一家机器人公司。为了做到这一点,就需要在各种环境中收集非常多样化的数据。从工厂里重复单一任务中是得不到那种多样性的,我们希望数据分布尽可能广泛,任务数量尽可能多,而家庭环境提供了这种非结构化的多样性。虽然在这样的环境中部署自主系统极具挑战性,且泛化能力至关重要,但它也是 1X 希望收集数据的终极宝库,因此值得首先尝试解决这个问题。

Q:1X AI 团队在过去一周发布了 Redwood,你构建它的方法是什么?是什么原因促使你们决定让它保持紧凑呢?

A:Redwood 是一个可以控制 Neo 机器人全身的视觉-语言-动作模型(VLA 模型),包括下半身、手臂、手和颈部,全部同时控制。据我们所知,1X 是首批真正以全身方式将所有要素整合在一起的人形机器人公司之一。

这是因为我们真的专注于家务琐事,例如能够在一个模型中完成取要洗的衣物并将其送到洗衣机等所有操作,我们真正强调的是在全身控制方面,这向我们证明了它与我们的硬件配合得非常好,而我们的硬件也非常擅长做一些顺应性的事情,比如抓住门并拉开它。所以我们希望通过我们的 AI 战略,真正证明我们的硬件与 AI 相结合的实用性。这就是重点所在。Redwood 是一个由语言控制的模型,将语言输入到模型中,它就能预测各种不同的事情。

Q:许多机器人系统将高级视觉与低级反射控制解耦,以便反射可以以更高的频率运行。为什么 1X 决定将高级视觉和动作控制整合在同一个以 5 赫兹运行的通道中?

A:Redwood 目前还不是一个高级推理器,也不进行高级规划。这也是我们正在积极为 Redwood 的下一个版本扩展的内容。当前发布的 Redwood 版本主要专注于全身控制,并确保其在任务完成方面是完整的。它能够快速进行低级控制并泛化到不同的指令,可以向其发出各种指令,它能够使用全身进行操作。家庭中许多任务需要全身协调,例如蹲下捡拾衣物,以及开门并后退。

随着开发更多围绕规划的家庭任务,模型将变得更大以适应这些任务。尽管如此,1X 在使 Redwood 模型尽可能紧凑方面投入了大量精力。我们用更大的模型做过实验,将智能封装到少量参数中,关键在于通过所谓的认知预测任务进行仔细训练,这对缩小模型帮助很大。

Q:什么是认知任务或认知数据?

A:这些是辅助预测任务,旨在对世界进行推理,从而使表征得到 grounding,以便这些表征能够真正理解世界。比如我的手在哪里,或者我的手未来会在何处闭合?就物体以及类似性质的事物而言,我看到的是什么?

Q:如何扩大认知的数据标注规模?

A:我们开始看到在其他 System 1、System 2 神经网络中也在进行类似的工作。比如在训练大型 VLA 模型时,你可能会在互联网问答任务(如视觉问答)上对其进行联合训练。像 Gemini Robotics,他们可能会以非常大的规模进行这种操作,预训练 VLA 模型,然后与动作一起进行联合训练。

1X 所做的是这种方法的微缩版:与辅助感知和认知任务以及动作进行联合训练。随着规模的扩大,可能会更像其他大型实验室正在进行的通用互联网规模问答任务。但究竟如何将其融入模型使其高效运行,同时又具备完成任务所需的全部智能,这是我们目前正在摸索的事情,我不认为它会是一个巨大的模型再附上一个小模型的形式。

Q:1X 有一个重要更新是 Neo 机器人的强化学习移动控制器,Neo 能够上下楼梯、跑步和侧向行走。Neo 执行实际家庭任务和移动能力与训练 Optimus 等机器人通过强化学习控制器跳舞有何不同?

A:1X 扩展和构建强化学习(RL)堆栈以及进行自然移动能力更新的动机在于为了在家庭中发挥作用,人工智能或远程操作必须能够最大限度地利用 Neo 来进入空间。目前大多数家用机器人无法上下楼梯,波士顿动力公司的 Spot 机器人除外,但那是一个四足机器人。

目前不清楚有任何家用机器人产品可以上下楼梯,这极大地限制了机器人能在家庭中执行的任务范围。大多数实验室将类人机器人用作双臂操作器,让其站在桌子前进行一些操作。但实际上,类人机器人的意义在于能够进入所有空间。例如,可以弯腰到桌下捡起地上的东西并放回桌上,或者踮起脚尖从高处架子上取下物品。

最初开发类人机器人是因为世界是为人类设计的,所有类人机器人领域的人都了解这一点,但他们的软件不一定能让机器人做到这一点。通过这次 RL 更新,1X 旨在让软件尽可能地利用硬件的全部能力。

关于 Optimus 跳舞,我猜测它可能跟宇树、众擎等公司最近展示的成果一样,更多是关于训练强化学习控制器,使其能够非常精确地跟踪特定的动作捕捉轨迹。机器人能够很好地遵循轨迹,而不会摔倒,这使得动作看起来自然。不过之后需要采取的步骤是让它可控,如果只能跳舞,那在家庭环境中就没什么用,因为你实际上需要操控它来做某些事情。

1X 希望通过这次更新,将通过动作捕捉参考训练实现动作自然性的技术,与第一代强化学习控制器(可以通过操纵杆或 VR 进行操控)的可控性结合起来,就能得到既自然又可用于实际任务的机器人,这是此次更新的核心贡献。

Q:随着数据量的增加,模型可能会增长,在权衡各种因素的情况下,如何考虑增加板载计算能力?

A:将所有这些机器人功能(包括安全层、强化学习、处理传感器数据的各种感知任务,以及可能存在的自主高级规划和音频生成等)集成到单个 GPU 中无疑是一个非常棘手的问题。如此多的功能需要挤入单个 GPU 并进行调度,避免 GPU 竞争。我们对未来能让我们运行更多程序的硬件确实感到非常兴奋,但我们也必须让它与我们现有的硬件兼容。因此,我们有一个专门的团队,致力于让我们现有的资源尽可能高效。

Q:1X 世界模型解决了哪些 Nvidia Isaac Lab 等基于物理的模拟器无法解决的独特挑战?

A:世界模型可以模拟人类,在世界模型中看到的人类会以某种人类特有的方式行为。在某种意义上,世界模型通过生成人物像素,开始隐式捕捉人类的智能。这是传统刚体模拟器很难实现的功能。而且它擅长处理布料和可变形物体,例如可以移动窗帘、放下或擦拭布料。这同样是刚体模拟器中相当困难的领域。此外,它理解液体,因为液体和任何其他可以在世界模型中模拟的物体一样,都是在家中经常会碰到的物品。

我们构建世界模型的原因在于,我们认为要在像家庭这样的非结构化环境中进行真正严格的评估,就需要一个数据驱动的模拟器。1X 需要一个数据引擎,使其能够在已部署的家庭环境中进行评估。这意味着可以将真实客户部署的日志转换为世界模型模拟,然后进行反事实测试。

Q:世界模型本质上是不是一个视频生成模型?

A:世界模型核心是一个使用扩散技术的视频生成模型。然而,我们在构建世界模型时面临的一个艰巨挑战是:使其能够通过动作进行控制。大多数视频生成模型都是文本到视频的,你输入一个提示词,它就会生成一些视频。

我们发现在将现有的预训练文本视频模型转换为我们的世界模型的过程中,文本到视频类型的条件层并没有给我们带来太多效果,所以不得不从头开始重新训练整个模型,使其关注动作,拥有高质量的动作数据集对于这项工作的成功至关重要。

Q:1X 公司在其博客中提到,即使一个与真实世界测试 70% 对齐的世界模型,也将是比较策略候选的有用工具。随着策略的成熟和策略间差距的缩小,如何确保世界模型随着自主性而不断改进?

A:这是一个非常好的开放性问题,我们目前还不知道答案。在我看来,世界模型能够评估大量我们无法手动设计模拟的事物。它为我们提供了非常广泛的覆盖范围,能够很好地适应我们的部署规模。但目前尚不确定它是否能像基于物理的模拟器那样提供 99.9% 的精确度对齐,这要求很高。

但世界模型至少提供了广度,同时 1X 也使用物理模拟作为另一种工具,以高精度评估少数场景。希望通过两者的结合,能够获得深度和广度。1X 将继续扩大世界模型的规模,使其越来越精确,但至于它会在哪里达到平台期,很难说。

如果它有 90% 的准确性,那么可以在多种不同场景下区分出许多策略;但如果是 70%,可能只能判断某个策略是否比以前差得多或好得多,而无法进行中间的细微区分。

Q:世界模型需要达到什么程度才能成为一个好的合成数据生成工具?

A:可以将目前设计的世界模型视为:它接收当前状态和候选动作,并以一种通用物理方式告诉你将会发生什么。为了生成数据,不需要输入动作,而是希望输出动作。可能希望通过提示它「将会发生什么」来引导,这样文本又重新输入。文本到视频模型和动作到视频模型之间存在一种有趣的融合,如果能找到将它们结合的方法,就可以在评估和数据生成之间进行转换。

我们非常自信,1X 目前拥有生成高质量视频回放所需的数据。因此,生成或扩散动作可能不会太困难,因为图像数据量已经非常大。如果能找到一种方法,通过文本实现高度可控的数据生成,那么就有了既能评估又能生成数据的方案,1X 对此感到非常兴奋。这让我想到了 Anthropic 公司在「宪法人工智能」方面所做的工作:他们不是在大型互联网数据集上进行预训练,而是拥有一个生成数据的模型,然后在此数据上进行训练。

Q:一个非常先进的世界模型能否通过其物理现实的图灵测试

A:现在已经可以看到世界模型中的人物动作逼真。可以想象,随着规模的扩大,世界模型中「幻化」出的人物会变得越来越智能。更不用说机器人本身在世界模型中也变得更智能。如果仅观察世界模型中人物的行为,会发现其中明显存在一些智能行为。我个人非常想看到世界模型中的那些人最终能否通过图灵测试。世界模型是一个交互式模型,它能对动作的变化做出响应。因此,图灵测试可能的工作方式是,世界模型对机器人动作的干预以一种非常符合心理物理学的方式做出准确响应。

Q:除了机器人技术,像 1X 世界模型这样的技术在游戏或沉浸式体验中有没有潜力?

A:如今我们看到一些初创公司基本上都在尝试为游戏打造可控的世界模型。我认为围绕如何将这些内容包装成产品存在很多问题,但在世界模型中看到的事物中肯定蕴含着智能,尤其是当它们包含动物、人类和机器人时。

Q:你是监督学习的坚定支持者,认为它是一种超高效的数据吸收方式。现在强化学习在操纵任务中表现出色,你是否认为强化学习可以与监督学习发挥互补作用?

A:我完全同意。但我仍然相信,监督学习是在深度神经网络中利用计算和参数容量的一种极其高效的方法。但这并不意味着我不相信强化学习,强化学习是通过交互和反馈来改进系统的。那么问题就来了,如何在现实世界中部署的类人机器人上大规模实施强化学习,这涉及大量的基础设施和算法挑战。

对于非常大规模的模型和通用人工智能领域,选择用于吸收信息的算法非常重要,这不是一个随意的选择。如何使强化学习尽可能地成为一个数据吸收器,是 1X 非常感兴趣的,即提升自身智能的规模。

1X 收集了大量自主系统失败的数据,如何将这些数据整合到其技术栈中是一个大问题。Redwood 模型实际上已经在使用成功和失败的推演数据进行训练,但并非严格意义上的强化学习(例如在策略更新)。它更多地是利用失败数据来改进其表征,这可以看作是迈向强化学习的第一步,未来将进行更多尝试。

Q:1X 一直在员工家中测试 Neo 机器人。带来了哪些初步经验,是否影响了 AI 堆栈的构建决策?

A:我们在家庭中部署机器人时学到的经验之一是:可靠性非常重要。这对产品体验至关重要,我认为可靠性限制了我们实际将机器人作为产品推向家庭的速度,如果你的机器人不是超级可靠,那么当它出现故障时,你就必须在附近安排维修人员来修理。因此,随着我们的业务规模扩大,就像该领域的任何公司在扩大规模时一样,我们基本上必须解决可靠性问题,才能解决分销问题。

Q:你们正着眼于更长远的未来,致力于打造真正通用的全自主人形机器人。你认为你已经掌握了扩大学习规模所需的所有要素了吗?还是你认为在算法计算方面需要共同取得根本性突破?

A:我们当然还没有把每一个细节都弄清楚。我想说,我们的宏观战略——在家庭中部署大量安全的机器人,收集多样化的数据,并利用这些数据来训练一种能很好地理解家庭、人类和物理环境的通用智能——是我们认为在方向上正确的策略。所以我们认为我们已经把那部分弄清楚了。

当然,还有很多细节,比如用何种强化学习算法从失败中学习?如何将所有智能压缩到小尺寸计算设备中?如何确保双足机器人的安全?强化学习控制器、自主控制器和规划器之间的权衡是什么?显然公司并未完全解决这些问题,但大致方向是:将基于家庭中人类的大量多样化数据训练深度神经网络,然后推动数据飞轮持续运转。

Q:特斯拉、宇树、Figure 以及许多其他公司都在尝试构建自己的 AI,1X 在为类人机器人构建基础 AI 方面的独特优势是什么?

A:1X 的主要优势在于其硬件策略,使其能够在非常多样化的环境中进行部署并进行意外接触,因为其安全硬件提供了保障。当允许进行更多意外接触时,就可以收集到更多关于试错的有趣数据,并从中引导出更强大的智能,因为从失败中学习至关重要。

而且强化学习控制器在通过失败数据进行训练时非常鲁棒,因此收集正确的数据集至关重要,这是 1X 领先的一个关键方面。在 AI 策略上,1X 采取的是一种非常全面的「家庭优先」方法,旨在解决家庭中合理的家务。并且公司拥有一个数据飞轮,它从部分人类远程操作的共享自主开始,最终将扩展到完全自主。1X 一直坚定不移地朝这个方向构建通用 AI。

在机器人领域,人们尚未真正认真对待世界模型。我认为有世界模型公司,也有机器人公司。但就像我三年前认为类人机器人这个概念还未被采用、还不是主流一样。尽管很多人都在谈论世界模型这个大话题,但它并非当今许多 AI 公司的核心关键。

比如,谷歌等前沿实验室不将世界模型作为其 AI 系统的核心。大多数机器人竞争对手也不将世界模型作为其核心 AI 系统。然而,1X 已在这方面投入大量资金,尽管它尚未成为其策略核心,但预见未来世界模型将变得更加主流。

关于英伟达发布的世界模型版本,英伟达最新的 Cosmos Predict 2 模型具有可由动作控制的功能,至少其发布的一个模型有此功能。英伟达的团队已开始添加机器人数据,以使其对动作更具可控性。