机器人要像人类一样熟练完成复杂任务,光靠模仿学习远远不够。
今天,Physical Intelligence(以下简称 PI)发布了最新基础模型 π*0.6,通过创新的 Recap 训练方法,融合示范、指导与自主实践三大环节,让视觉 – 语言 – 动作(VLA)模型突破模仿学习的瓶颈。
作为一家具身智能领域的初创公司,PI 的总部位于旧金山,曾在去年完成了超过 4 亿美元的融资,在技术上他们非常坚持 VLA 这条线,并且重视让模型具备在新环境中执行工作的能力。
公司联创 Sergey Levine 自豪地表示,目前搭载 π*0.6 模型的机器人已经可以在公司里为大家制作咖啡,并且在很多任务上的成功率都达到了 9 成。
让机器人不只是一知半解
过去一年,机器人学习领域的很多成果都依赖模仿学习,即通过人类示范数据训练模型。不过这种方式只能让机器人「会做一半」。
在实际变换的环境中机器人可能会出现从小错误再到更大错误的情况,而且错误没办法在示范数据中出现,导致「错误积累」的问题。
只靠模仿示范,机器人没办法保证高成功率。要实现百分百可靠、达到人类级别的处理效率,距离还很远。
所以 PI 新发的 π*0.6 模型就是要解决机器人具体干活时的成功率和效率的问题。
在具体的运行机制上, π*0.6 的关键是 Recap 训练法,这个方法可以让机器人经历「示范学习、纠错指导、自主实践」三个阶段。
模型可以从所谓的「坏数据」中提取有效的训练信号,而不只是通过示范学习让机器人重复去做某件事,这样的话只会是让它一直犯相同的错误。
在具体的纠错指导这个阶段中,远程操作员会在机器人犯错的时候接管,展示如何从错误中恢复正常,这种针对性的纠错数据,能直接解决机器人在实际场景中遇到的特殊问题,打破错误连锁反应的循环。
(远程操作员接管提供实时纠正)
不过只是靠人工纠错的话,很难覆盖所有细微场景,机器人还需通过自主实践持续精进。
因此 Recap 引入价值函数解决强化学习中的「信用分配」难题,即判断哪些动作导致了最终的成功或失败。通过预测不同场景下的任务完成概率,模型能识别出关键的有效动作和失误节点,进而强化优势行为,规避错误操作。
价值函数可视化显示,机器人成功完成任务的话曲线迅速上冲,但犯错的时候曲线大幅下挫,这些曲线的波动可以帮助模型从自主经验中提炼信号。
从模仿到纠错指导再到自主实践,机器人在学习的时候,就避免了让小错误累积成大错误的情景,「坏数据」就成为了一大动力,而这个阶段的核心就是强化学习。
实际应用表现如何?
作为 PI 在 VLA 模型上的又一力作,π*0.6 基于 50 亿参数的视觉 – 语言模型构建,搭配动作专家模块,支持文本指令与执行质量、动作优势等多维度条件输入。
在实际应用中,PI 重点研究了三个场景,分别是做咖啡、叠衣服和组装纸盒。每项任务都具备不小的挑战,所以在反复执行时容易出现成功率不高的情况。
比如做咖啡是个长线程的复杂任务,任务中涉及到倒牛奶、判断机器是否开始或结束运转,而且还有结束后清理机器人的选项,跨度极长。
而叠衣服这项任务机器人面对的是材质的多样性,不同的衣服要有不同的姿态和发力方式去处理。
最后组装纸箱的任务机器人需要应对扁平纸箱粘连、折边偏差和胶带粘贴等复杂且精细的工作挑战。
这些任务其实也是现在机器人模型所面临的难点,很难兼顾质和量。但经过 Recap 训练后,搭载 π*0.6 的机器人可以从早上 5:30 到晚上 11:30 制作各种浓缩咖啡饮料,在新家折叠 50 种不同的新奇衣物,在真实工厂组装并标记 59 个用于包装巧克力的盒子。
并且 π*0.6 在这三大核心任务中处理的成功率超过了 90%。尤其是在做咖啡这项任务上,提升幅度非常明显,吞吐量和成功率较基础模型翻倍。
当前,机器人基础模型的训练高度依赖人工收集的演示数据,不仅耗费人力,还限制了模型的性能上限。而 Recap 方法开辟了新的可能性,让机器人的自主实践数据成为训练的核心来源之一。
其实,π*0.6 的突破不只是在于任务性能上的提升,更在于让机器人摆脱对人工示范数据的过度依赖,让自主实践数据成为训练核心。
随着未来机器人在现实场景的规模化部署,海量自主实践数据将形成数据飞轮,即部署范围越广,数据越多样,模型性能提升越快;而性能提升又能推动更广泛的部署,最终让机器人突破人类操作局限,实现超人类级别的稳健性与效率。
