1X 公布世界模型最新进展,NEO 机器人能顺利进家吗?

1X 正在加速推进 NEO 机器人规模化落地。

1 月 13 日,具身智能企业 1X 正式发布了 1XWM,这是一个基于互联网视频预训练的生成式世界模型,核心在于让机器人如何形成自己的世界理解,并在此基础上持续学习与行动,以此推进 NEO 机器人规模化部署。

去年 1X 推出 NEO 机器人后,大家最关注的问题就是它将如何被部署到家庭场景中,因为官方介绍对于 NEO 不会执行的任务,1X 专家可以加入其中进行处理,也就是遥操作。

这样的方式也让不少人对其机器人的自主能力产生了质疑,但今天 1X 推出的世界模型 1XWM,其逻辑范式上的变化也给行业在机器人自主技术上带来了新思路。

让机器人先在大脑中行动

传统的 VLA 模型大多是反应式的,从感知输入到策略网络再到动作输出。这种结构在规则明确的场景中能发挥出不错的应用效果,但在家庭等复杂的环境中,容易出现运行不稳定的情况。

而 1XWM 的核心运行逻辑在范式上有了变化,即机器人不再直接对现实做出反应,而是先在内部构建一个可预测的世界副本。

比如用户提出具体指令后,1XWM 会先生成文本驱动的视频推演,想象这个任务的全流程。然后通过逆动力学模型将视频转化为关节指令,让机器人复现想象中的行为。

在这一逻辑下,机器人面对指令或环境变化时,会先通过视觉、语言等多模态输入的方式感知当前世界状态,而后在内部世界模型中模拟未来可能发生的变化,进而在想象空间中评估不同动作路径的后果,最后再将最优动作映射回真实世界执行。

这个逻辑本质上是将人类先想清楚再动手的认知机制,引入到机器人决策之中。

不过要注意的是,1XWM 不是在构建一个精确复刻现实的数字孪生世界。它更关注的是对世界关键因果结构的压缩表达,即哪些变化是稳定的,哪些动作会导致不可逆后果,以及环境在时间维度上的演化规律是什么。

总体来说,机器人是先看到了自己成功的状态,再去照着执行。

1XWM 的核心是什么?

对于模型来说,合适的硬件是其发挥完整作用的载体,所以软硬协同也是许多机器人厂商发力的重点。1X 在系统设计中强调「人形」的重要性,他们把硬件视为模型分布的一部分。

因为当机器人在关节和柔顺性等方面偏离人类过多时,视频中学到的物理先验就很容易失效。只有当硬件被视为 AI 技术栈中的核心组成部分时,这种能力转译的鸿沟才会缩小。

在这里 1X 也表示 NEO 机器人的硬件基本都可以复刻模型所想象的流程。

而后技术团队介绍到,1XWM 的主干基于一个 140 亿参数的生成式视频模型构建。为了让该模型适配 NEO 的本体结构,其采用了多阶段训练策略。

先是使用 900 小时的第一人称人类视频进行训练,使模型与第一人称操作任务对齐。在这一阶段,模型能够捕捉通用的操作行为,但很难生成 NEO 机器人执行任务的视频。此后,再根据躯体结构微调,使模型适配 NEO 的视觉外观和运动学特征。

通过预训练加本体微调的方式,可以减少机器人对于数据的过度依赖,也能够让机器人的泛化能力得到增强。

不过具体到机器人执行层面时,各种各样的问题又会随之出现,比如有时候世界模型容易生成一些违背物理常识的视频画面,像闪现、过度弯曲等。

在这方面,1XWM 会先生成高度真实的视频,而后再用 IDM(逆动力学模型)将视频转化为指令,在这个过程中,各种不科学的画面就会被过滤掉,从而避免机器人去执行视频中不靠谱的内容。

终极目标是进入家庭

在实际测试过程中,1X 展示了 1XWM 的泛化能力,在面对没出现过的任务时也可以应对,比如抓取没见过的物品,和人类实时互动。在加入 Best-of-N 的策略后,其在「画笑脸」这类精细任务上的成功率也得到了一定的提升。

不过在运行中,1XWM 生成 5 秒钟的视频需要 11 秒,在机器人家用部署时,这样的速度会对其具体工作造成一定的影响。

另外,技术团队也发现,机器人在执行任务时,世界模型生成的视频质量会对任务成功率产生极大影响。所以技术团队会尝试了同时生成多个视频选取质量最高者的策略,这也让机器人在「抽纸巾」的任务中将成功率提高到了 45%,此前只有 30%。

NEO 作为一款家用人形机器人,在具体落地部署时,执行任务的速度和成功率都是非常关键的,所以 1X 必须构建起一个自我进化的飞轮来让 NEO 机器人搭载的 1XWM 持续保持进步。

而且在上个月,1X 才跟私募股权巨头 EQT 建立了战略伙伴关系,他们将在 2026 年至 2030 年期间,推动在 EQT 全球投资组合公司中部署多达 10,000 台 1X 制造的 NEO 人形机器人。

在 5 年内的时间部署 1 万台人形机器人,要完成这样的战略目标,1X 就必须解决眼下机器人最为头疼的模型问题。

通过 1XWM 创建的飞轮,NEO 机器人可以自己进行探索和策略上的细化,而不是受专家演示的限制,这样自我提升的飞轮也让 NEO 距离进入家庭中工作的终极目标又近了一步。

2026 年才刚刚过去半个月,我们就明显可以看到,整个机器人行业开始加速朝着落地部署方向发力。更多的技术在围绕长期运行和自我演化来设计,毕竟一个能够在真实世界中不断成长的系统,才真正具备规模化应用的潜力。