速度提升 3 倍、成功率高达 99%，这家模型让机器人开始「精通」任务

当地时间 4 月 2 日，美国具身智能公司 Generalist AI 发布了最新的 GEN-1 模型，在一些具备商业价值的任务上平均成功率达到 99% 的同时，也将干活速度提升到了此前 SOTA 的 3 倍左右。

更重要的是，在实际应用中，GEN-1 还能展现出一定的即兴发挥能力，即便任务过程中出现意外，它也能根据临时情况随机应变。

一面是机器人执行任务时的可靠性，另一面则是大幅提升的执行速度，GEN-1 的目标很明显，就是针对就是目前机器人商业应用的核心问题。

因此，Generalist 团队也认为，GEN-1 为机器人的应用落地带来了商业可行性。

值得一提的是，5 个月前该团队还发布了 GEN-0 模型，证明在机器人领域同样存在 Scaling Laws。

从 GEN-0 到 GEN-1，实际上也是机器人从学习干活逐渐走向「精通」干活的阶段。

只不过前者更像是在验证技术路线的可行性，而 GEN-1 则开始接近 GPT-3 时刻，更大的价值在于这条线开始真正具备商业价值。

机器人干活，怎么才能叫「精通」？

对于机器人来说，怎么才算把一件事做会？

如果放在人类语境来说的话，「会做」和「精通」其实是两件完全不同的事，会做代表着可以按照流程正常完成任务，精通则意味着在各种情况下都能稳定完成。

而机器人长期以来的问题，就卡在这条分界线上。

很多机器人领域的成果，其实更接近会做这个阶段，它们能在标准环境下成功几次，Demo 看起来也没有什么大问题，但一旦外界出现干扰，机器人干活的成功率就会大幅下降。

这种情况就是机器人并没有真正掌握任务的表现，只是在特定条件下复现了一条正确路径。

因此，Generalist 团队也给出了衡量「精通」的新标准，机器人是否真正掌握一项任务，不再看单次成功，也不看理想环境下的表现，主要看是不是同时满足可靠性、速度和即兴应对能力：

可靠性：在长时间、连续执行中，能不能依然能够保持接近人类的成功率。在这个方面，对于以往模型平均成功率仅为 64% 的任务，GEN-1 的平均成功率达到了 99%，并且可以连续长时间执行任务，比如连续打包积木 1,800 多次。
速度：机器人并不是能做就可以，更需要在接近甚至达到人类效率的情况下完成任务。不然就算成功率再高，也难以进入真实商业场景。在速度上，GEN-1 比现有技术快了接近 3 倍。比如 16.5 秒完成装手机任务，是 GEN-0 的 2.8 倍。12.1 秒完成盒子组装，π 0 和 GEN-0 则耗时约 34 秒。
即兴应对能力：在任务过程中出现偏差、干扰时，系统是否能够自行调整，并最终把任务完成。在 Generalist 给出的任务演示中，即便零件掉在地上，模型也可以根据意外情况重新调整方案，最终将任务完成。

把这三个维度放在一起，其实就构成了一个比较关键的转变，就是机器人能不能在不确定的环境中，稳定、高效地把任务收敛到正确结果。

从这个角度看， GEN-1 的价值在于让机器人开始从能用，逐渐走向真正可用。

只不过在这个过程中，达到特定任务的出色表现需要何种规模的数据，是更值得关注的问题。

预训练完全不需要机器人数据

和许多团队在预训练阶段对于机器人数据的高依赖不同，GEN-1 的做法是在预训练阶段，完全不使用机器人数据，其基础模型基于 50 万小时的高保真现实世界数据训练，比起此前的 GEN-0 要多一倍。

在搭建数据采集平台、遥操作获取机器人数据等高成本方式难以支撑起数据规模的情况下，GEN-1 的做法，实际上是绕开了这个瓶颈，并且把整个训练过程拆成了两个阶段：

预训练阶段，GEN-1 使用的是可穿戴设备采集的人类行为数据，大规模且多样化的现实操作记录，并不是机器人执行数据，这一步的重点就是先让模型学会人与世界如何交互。
微调与强化学习，完成预训练之后，再通过少量机器人数据和强化学习，把能力对齐到具体的机器人执行上。不过其中的关键是，GEN-1 单任务只需要约 1 小时的机器人数据。相比过去动辄数十小时甚至上百小时的数据需求，这是好几个数量级的下降。

从技术上看，这种方式更依赖一个判断，即机器人任务中，大量难点不在控制，主要在理解世界。

所以 GEN-1 的逻辑就是，把理解世界的部分，用人类数据一次性学掉。然后在执行控制的部分，用少量机器人数据对齐。

在这条路线上，机器人数据不是能力来源，反而变成了机器人干活最后一公里的对齐工具。

边做边想让干活速度更快

除了数据和训练范式，另一个非常关键的变化，其实发生在推理时（inference-time）。

在这个层面，Generalist 引入了谐波推理和分页注意力机制，从而支持模型在高速执行中实现实时响应。

其中，谐波推理的核心在于不刻板执行传统「先感知、再推理、然后执行」的串行结构，让感知与动作在时间上耦合进行，使模型能够在执行过程中持续更新决策，而不是依赖低频规划。

所以这点，也是 GEN-1 拥有即兴应对能力的基础，不至于其在执行任务时，死板的按照既有程序走。

而分页注意力机制主要处理长序列与实时性的矛盾，即通过对上下文进行分块管理与选择性关注，模型不再需要在每一步处理全部历史信息，从而在保证关键状态记忆的同时，大幅降低计算延迟。

这两者结合在一起，本质上就是让机器人在干活速度加快的同时，保持对突发情况的应变能力。

写在最后

当然，GEN-1 并非没有局限，Generalist 的态度也很坦诚：「并不是所有尝试过的任务都能达到 99% 成功率的水平，一些任务还需要更好的成功率和速度。」

不过，Generalist 也预计下一代模型将解锁更广泛复杂、能精通的任务范围，并且单任务所需的数据量会继续下降。

总体来看，GEN-1 虽然并不是一个能让机器人干好每件事的模型，但它却把机器人能干好活这件事，真正放在了商业化可行性的讨论当中。

所以在这个阶段，可靠性、速度和应变能力，仍然是整个行业必须面对的核心问题。毕竟，机器人只有能像人一样把事情做到「精通」，才能真正从 Demo 走向大规模落地。

速度提升 3 倍、成功率高达 99%，这家模型让机器人开始「精通」任务

机器人干活，怎么才能叫「精通」？

预训练完全不需要机器人数据

边做边想让干活速度更快

写在最后

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？

速度提升 3 倍、成功率高达 99%，这家模型让机器人开始「精通」任务

机器人干活，怎么才能叫「精通」？

预训练完全不需要机器人数据

边做边想让干活速度更快

写在最后

相关文章

从底层本能出发，橡木果机器人发布「本能驱动」技术路线

VLA 终于摆脱后训练了？自变量开源 WALL-OSS-0.5，预训练完直接上真机

第一批消费级四足机器人进家门，这些用户都在想什么？

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？