
当地时间 4 月 2 日,美国具身智能公司 Generalist AI 发布了最新的 GEN-1 模型,在一些具备商业价值的任务上平均成功率达到 99% 的同时,也将干活速度提升到了此前 SOTA 的 3 倍左右。
更重要的是,在实际应用中,GEN-1 还能展现出一定的即兴发挥能力,即便任务过程中出现意外,它也能根据临时情况随机应变。
一面是机器人执行任务时的可靠性,另一面则是大幅提升的执行速度,GEN-1 的目标很明显,就是针对就是目前机器人商业应用的核心问题。
因此,Generalist 团队也认为,GEN-1 为机器人的应用落地带来了商业可行性。

值得一提的是,5 个月前该团队还发布了 GEN-0 模型,证明在机器人领域同样存在 Scaling Laws。
从 GEN-0 到 GEN-1,实际上也是机器人从学习干活逐渐走向「精通」干活的阶段。
只不过前者更像是在验证技术路线的可行性,而 GEN-1 则开始接近 GPT-3 时刻,更大的价值在于这条线开始真正具备商业价值。

机器人干活,怎么才能叫「精通」?
对于机器人来说,怎么才算把一件事做会?
如果放在人类语境来说的话,「会做」和「精通」其实是两件完全不同的事,会做代表着可以按照流程正常完成任务,精通则意味着在各种情况下都能稳定完成。
而机器人长期以来的问题,就卡在这条分界线上。

很多机器人领域的成果,其实更接近会做这个阶段,它们能在标准环境下成功几次,Demo 看起来也没有什么大问题,但一旦外界出现干扰,机器人干活的成功率就会大幅下降。
这种情况就是机器人并没有真正掌握任务的表现,只是在特定条件下复现了一条正确路径。

因此,Generalist 团队也给出了衡量「精通」的新标准,机器人是否真正掌握一项任务,不再看单次成功,也不看理想环境下的表现,主要看是不是同时满足可靠性、速度和即兴应对能力:
- 可靠性:在长时间、连续执行中,能不能依然能够保持接近人类的成功率。在这个方面,对于以往模型平均成功率仅为 64% 的任务,GEN-1 的平均成功率达到了 99%,并且可以连续长时间执行任务,比如连续打包积木 1,800 多次。
- 速度:机器人并不是能做就可以,更需要在接近甚至达到人类效率的情况下完成任务。不然就算成功率再高,也难以进入真实商业场景。在速度上,GEN-1 比现有技术快了接近 3 倍。比如 16.5 秒完成装手机任务,是 GEN-0 的 2.8 倍。12.1 秒完成盒子组装,π 0 和 GEN-0 则耗时约 34 秒。
- 即兴应对能力:在任务过程中出现偏差、干扰时,系统是否能够自行调整,并最终把任务完成。在 Generalist 给出的任务演示中,即便零件掉在地上,模型也可以根据意外情况重新调整方案,最终将任务完成。

把这三个维度放在一起,其实就构成了一个比较关键的转变,就是机器人能不能在不确定的环境中,稳定、高效地把任务收敛到正确结果。
从这个角度看, GEN-1 的价值在于让机器人开始从能用,逐渐走向真正可用。
只不过在这个过程中,达到特定任务的出色表现需要何种规模的数据,是更值得关注的问题。

预训练完全不需要机器人数据
和许多团队在预训练阶段对于机器人数据的高依赖不同,GEN-1 的做法是在预训练阶段,完全不使用机器人数据,其基础模型基于 50 万小时的高保真现实世界数据训练,比起此前的 GEN-0 要多一倍。
在搭建数据采集平台、遥操作获取机器人数据等高成本方式难以支撑起数据规模的情况下,GEN-1 的做法,实际上是绕开了这个瓶颈,并且把整个训练过程拆成了两个阶段:
- 预训练阶段,GEN-1 使用的是可穿戴设备采集的人类行为数据,大规模且多样化的现实操作记录,并不是机器人执行数据,这一步的重点就是先让模型学会人与世界如何交互。
- 微调与强化学习,完成预训练之后,再通过少量机器人数据和强化学习,把能力对齐到具体的机器人执行上。不过其中的关键是,GEN-1 单任务只需要约 1 小时的机器人数据。相比过去动辄数十小时甚至上百小时的数据需求,这是好几个数量级的下降。

从技术上看,这种方式更依赖一个判断,即机器人任务中,大量难点不在控制,主要在理解世界。
所以 GEN-1 的逻辑就是,把理解世界的部分,用人类数据一次性学掉。然后在执行控制的部分,用少量机器人数据对齐。
在这条路线上,机器人数据不是能力来源,反而变成了机器人干活最后一公里的对齐工具。

边做边想让干活速度更快
除了数据和训练范式,另一个非常关键的变化,其实发生在推理时(inference-time)。
在这个层面,Generalist 引入了谐波推理和分页注意力机制,从而支持模型在高速执行中实现实时响应。
其中,谐波推理的核心在于不刻板执行传统「先感知、再推理、然后执行」的串行结构,让感知与动作在时间上耦合进行,使模型能够在执行过程中持续更新决策,而不是依赖低频规划。
所以这点,也是 GEN-1 拥有即兴应对能力的基础,不至于其在执行任务时,死板的按照既有程序走。

而分页注意力机制主要处理长序列与实时性的矛盾,即通过对上下文进行分块管理与选择性关注,模型不再需要在每一步处理全部历史信息,从而在保证关键状态记忆的同时,大幅降低计算延迟。
这两者结合在一起,本质上就是让机器人在干活速度加快的同时,保持对突发情况的应变能力。

写在最后
当然,GEN-1 并非没有局限,Generalist 的态度也很坦诚:「并不是所有尝试过的任务都能达到 99% 成功率的水平,一些任务还需要更好的成功率和速度。」
不过,Generalist 也预计下一代模型将解锁更广泛复杂、能精通的任务范围,并且单任务所需的数据量会继续下降。
总体来看,GEN-1 虽然并不是一个能让机器人干好每件事的模型,但它却把机器人能干好活这件事,真正放在了商业化可行性的讨论当中。
所以在这个阶段,可靠性、速度和应变能力,仍然是整个行业必须面对的核心问题。毕竟,机器人只有能像人一样把事情做到「精通」,才能真正从 Demo 走向大规模落地。
