谷歌一出手就是王炸,这次给机器人安上了「新大脑」

谷歌放大招,Gemini Robotics 1.5 系列模型让通用具身智能又迈出了坚实的一步。

当地时间 9 月 25 日,谷歌核心 AI 研发部门 DeepMind 发布了为机器人打造的 Gemini Robotics 1.5 系列模型,该系列包括两种模型,分别是:

  • Gemini Robotics 1.5:是一款 VLA 模型,可以将视觉信息和指令转化为机器人执行任务的运动指令,跟传统 VLA 模型简单执行指令不同,它在执行动作前会先思考并展示过程,以此来评估并且完成复杂任务。而且其具备良好的跨形态学习能力,不需要根据不同本体形态来调整模型。
  • Gemini Robotics-ER 1.5:是一款 VLM 模型,可以对物理世界进行推理,可以调用数字工具并创建详细的多步骤计划来完成任务,目前该模型已经在学术和内部基准测试中实现了最先进的性能。

这两款模型都建立在核心 Gemini 系列模型之上,各自有不同的定位,但它们结合在一起协同运转的时候,也给机器人执行具体任务的时候解锁了智能体的体验。

Gemini Robotics-ER 1.5 在实际应用中相当于机器人的「战略指挥官」,可通过自然语言与人类交互,自主评估任务进度与成功率,还能调用谷歌搜索等工具获取外部信息,为复杂任务制定详细的多步骤计划,然后给每个步骤提供自然语言指令。

随后 Gemini Robotics 1.5 利用行动前的思考能力,可以在执行任务时,生成自然语言形式的内部推理过程,来更好地应对语义复杂的任务,并且还能将长任务拆解为短步骤,提升执行成功率与环境适应性。

在演示视频中,搭载了 Gemini Robotics 1.5 系列模型的 Aloha 和 Apollo 机器人执行了几个具体的任务。

分给 Aloha 的任务是垃圾分类,Aloha 执行任务的时候就先通过 Gemini Robotics-ER 1.5 模型调用了搜索工具,获取了旧金山的垃圾分类规则,然后通过模型协同,将果皮等湿垃圾放入了对应的绿桶中、将可乐罐子放入了象征可回收类别的蓝桶中、将一般垃圾放进了黑桶中,很好地完成了垃圾分类的任务。

在 Apollo 执行的打包行李的任务中,它不但可以顺利完成去往伦敦的行李打包,还能够自行查询伦敦当地的天气(这点并没有人工指令),在得知伦敦有雨后,Apollo 把雨伞放进了行李中。

Gemini Robotics 1.5 系列模型的搭载,也让机器人在执行具体任务的时候更加聪明,能够根据具体情况进行针对性地处理,尤其是执行任务前先思考的能力,让具体任务的执行变得更加可靠。

跟传统的 VLA 模型比起来,Gemini Robotics 1.5 模型不缺乏对于任务的深度理解能力,而不是简单地直接将指令转化成行动。而且它甚至还展现了任务以外的其他能力,比如上述任务二中的给用户预备雨伞。

在随后的任务三中,Apollo 来分类衣物,白色的衣服要放在白色的收纳盒中,当 Apollo 拿起衣服准备放入盒子的时候,工作人员将目标盒子与其他盒子进行了位置交换,而在这个过程中,模型可以帮助 Apollo 做出及时的反应,最终顺利地完成了任务。

在多层次的思维过程中,模型能把较长的任务变成机器人可成功执行的简单片段,而且还可以帮助模型泛化来解决新任务,对环境变化应对更稳定。

并且 Gemini Robotics 1.5 还有着不错的跨形态学习能力。

具身模型在落地应用的过程中,因为不同的机器人本体有不同的形态和尺寸,而且传感能力跟自由度也都是不同的,所以模型在原本体上学会的动作去移植到另一个本体的时候非常麻烦。

但 Gemini Robotics 1.5 的出现很好地应对了这个困难,不需要模型根据不同的本体进行额外的专门调整。

比如在训练中只让 Aloha 机器人执行的任务,让从没接触过的 Apollo 去执行的时候,它也可以很好地通过技能迁移学习来完成任务。

这个跨形态学习的能力也是未来具身智能真正落地去应用非常重要的一点,它让传统具身智能「一机一训」的效率困境得到了缓解,是具身智能真正融入物理世界非常关键的因素。

对于本次模型的发布,DeepMind 表示将通过 Google AI Studio 中的 Gemini API 向开发者提供 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 目前只供部分合作伙伴使用。