上周末开幕的 2025 世界人工智能大会(WAIC)可谓精彩纷呈,国内数百家 AI 领域顶尖企业齐聚上海,让更多人看到了 AI 的未来。
7 月 27 日上午,由智元机器人主办,以「全球视角下的具身智能新机遇」为主题的智启具身论坛在世界人工智能大会现场举行。智元机器人合伙人、具身业务部总裁姚卯青在主旨演讲中透露了两个重磅信息:
第一,智元机器人发布行业首个真正面向真实世界双臂机器人的世界模型开源平台「Genie Envisioner」(下文简称 GE);
第二,精灵系列下一代机器人本体精灵 G2 即将在今年 Q3 发布,运动精度、场景适配性上全面升级,还具备原生数采能力,将进一步拓宽具身智能的应用边界。
世界模型到底什么架构?
姚卯青介绍,GE 的推出其实包含了四项工作,一架飞机的图案就能比较形象地描述。
在最中间的是 GE-Base,它经过海量的机器人真机数据训练之后,就能获得比较优秀的视频生成能力,并且这是一个长程的、多视角的视频生成能力。
如何实现 GE-Base「两翼齐飞」呢?
智元通过训练动作产生 World Action Model,在给定指令的情况下,机器人可以预见未来的画面,并且规划动作。基于视频生成的预训练,通过增加 Action 解码器,实现长程的任务规划。基于这一模型的机器人,面对叠衣服、传送带分拣等动态性的任务时,效果更优秀。
另一个是 Action-conditioned World Model,在给定轨迹规划的情况下,让机器人进行高还原度的物理模拟,将接下来会发生的环境交互、物理世界的改变都仿真出来。智元对此进行了一个对比,将世界模型预测的环境对比真实世界,有非常高的还原度。
在量化评测的环节,机器人在真实世界评测的成功率和在世界模型内评测出来的成功率接近。
最后,智元还推出了针对 GE 的 Benchmark,可用于生成合理性的评测。评测维度包括世界模型生成合理性、运动自洽性、语义合理性、时空因果性、画面仿真性等,目前这一 Benchmark 已经在 GitHub 开源。
根据规划,智元将在三季度正式发布 GE-Base、World Action Model 以及 Action-conditioned World Model。
为什么要推出 GE?
姚卯青谈到非常关键的一点,就是具身智能的飞轮,即「本体-数据-模型-场景」。
在本体端,需要机器人拥有高质量、强健的体魄;在数据端,行业已经走上了数据驱动的道路,需要在各行各业构建海量数据;利用海量数据,不断打磨模型,进入应用场景;同时,在应用的过程中,也会给本体设计、数据方法论提出新的要求,不断转动飞轮,加速发展。
这也让姚卯青感叹,做具身智能实在太难了。
他说道:「很多时候羡慕做大模型的朋友,好像只需要坐在办公室,所有工作都可以完成了。但我们不太一样,每天都需要在本体-数据-模型-场景中不断自我进化。」
要形成具身智能的飞轮,首先就要有数据。不同于大语言模型行业海量的数据,机器人行业根本没有数据。因此,智元通过自建专业数采工厂,形成了全球最大数据集 AgiBot World 并开源。
姚卯青说:「面对具身智能数据的荒漠,我们选择栽下第一棵树,愿其能成为一片森林。」
有了数据之后,接下来是模型。在此之前,智元发布了行业首个通用具身基座模型——启元大模型,拥有「一脑多形」能力,能够适配其他异构机器人本体。
但到了这里,物理智能涌现的脚步还远远没有停止。机器人应该不仅仅能够执行人类的指令,还需要插上想象的翅膀,预见未来,这就是 GE 推出的重要背景。
在场景落地方面,智元机器人已落地工业制造、仓储物流、电力巡检、交互引导四大场景。
自此,智元机器人的具身智能飞轮已经形成。在长期的研发过程中,智元频繁踩坑,也有丰富的收获,姚卯青分享了其中四点。
他认为,机器人需要回到「执行器」本身,高频、高精度跟随以及低延迟的执行器非常重要,其次还需要高精度、高分辨率的力控,实现工业场景作业。
在传感器层面,机器人不仅仅需要多种传感器融合,在标定、时间同步、多机一致性上也非常重要。
在本体构型上,再强的算法、模型,也无法替代高自由度灵活本体的优势。智元希望,未来机器人的本体能够越来越接近人类的构型,并且带来更高的自由度。
最后则是系统误差的放大效应,无论是硬件制造,还是模型训练,一个个小误差的叠加,最终可能会被无限放大,这将是机器人在大规模应用中必须克服的困难。
恰好是场景端的总结,最终让智元下一代产品更优秀,也就是即将发布的精灵 G2。
形成具身智能飞轮的智元机器人,或许会在各项场景落地中跑得更快。
附:对话实录
演讲结束后,42 号电波等多家业内媒体共同采访了智元机器人合伙人、具身业务部总裁姚卯青,针对智元机器人最新的商业化进展、世界模型等问题进行了深入探讨。
Q:智元的世界模型其他的世界模型有什么不一样?
A:世界模型本身它从技术路线上来讲,它是两条技术路线,像前面那种的都是泛 VLA 时代,在 VLM 的基础上加一个解码器,去直接生成动作。世界模型最早它并不是去用来生成动作的,它是用来模拟世界的。
我们很多东西,它跟物理世界需要有一个建模,但是物理需要做很复杂的建模,显示的建模大家尝试去做,但是有限,大家想到用神经网络的方法暴力去弄数据。应该是 2022 年开始,那个时候特斯拉,有一家自动驾驶公司,那个时候他们做的事情,是汽车前视角下的:我要往前转,要直行,不要闯红灯,我们现在要告诉他去抓一瓶水,不仅仅是一个指令,50 赫兹,每 20 毫秒给你一个关节的角度,一系列的动作控制指令给我模仿出来,一个完整的呈现,这是我们讲的这个叫作 Action-conditioned World Model,前面加了一个 Action-conditioned 动作驱动的,还有一类就是我们讲的 World Action Model ,它是一个共轭的关系。
一个是给定动作去生成将来的画面,另一个是说你给定它最终状态去生成动作,这就是 World Action Model 。我让你去抓水,你不仅仅想象这个画面,同时你把刚刚那七个关节角,时时刻刻的这个关节控制,全都给我生成出来什么角度东西,所以我们刚刚有个飞机叫两翼起飞。
Q:有些友商会依赖合成数据,虚拟数据,你怎么看待这两个数据采集?
A:今天我们的论坛有这样一个讨论,其实很多公司会从自身的出发点去倒推这个问题,希望以终为始去给这样一个答案,1 比 10,1 比 99 这样一个答案。
实际上在过程中,很难涵盖所有物理世界我们想让机器人做的事情,也许局部任务里面可以用仿真,但是大部分只能依赖真实世界,这也是我们在实验中发现的效果。同时在比较多可以仿真的一些团队,如果你们深入了解的话,最近他们也在采集海量的数据。
Q:您曾经在蔚来等车企就职,您怎么看机器人进厂做实训,机器人开始发挥作用,您觉得还需要多少时间?
A:我相对比较乐观的,今年上半年已经签了柔性场景做落地,未来一年左右里面会看到很多这样的案例出现。
Q:现在离代替员工还有距离,这个难点是什么?跟业界合作的时候想突破哪一块?
A:我们已经连续做到 1 万次零失误,达到人的水平,但是真正上线大家有更高预期,比如说不会影响产能,当然也可以通过别的运营手段。
Q:在工厂的话有一些机器人厂商采取这种换电,无线充电?
A:我们下一代产品都支持的,不关机情况下直接热换电,另外也有自主回充,跟家里扫地机一样没有电就可以充。
Q:比较好奇智元的技术路线,挑战主要有哪些?大小脑和本体,投入精力过程当中有什么偏重?
A:我们的报告当中有提到,做到落地是一个闭环的飞轮,不得不把这些事情都做好,很难说把其中一块东西完整外包出去或者怎么样,在实践过程中我觉得依次迭代的过程,是循环往复的过程,某一个时间点做一些设计,在这个之后收集相应的数据迭代,你发现会有很多新的需要提升的地方。然后再回头设计本体,所以在投入方面来讲我们团队各个方向都还是在努力。
Q:7 月初的时候智元中标中国移动 7,800 万订单,主要包含产品的单价,应用场景,它的具体功能主要有哪些?
A:这个项目是中国移动做的一个定制双足人形机器人,这个产品主要会应用在移动这样的运营商的门店、营业厅里面去做一些接待讲解等交互的工作。
Q:接下来还会在服务机器人这个方向?
A:接下来会的,在类似场景迈出的第一步,后续在运营商酒店、银行等等会看到有一些服务接待的场景,其实都有海量的需求。
Q:可不可以理解为服务接待或者导览的场景是主要方向?接下来有没有其他的应用场景?
A:这只是我们其中的应用方式之一,通过智能创造无限能力,通过交互让机器人进工厂,工厂只是第一步,下一步零售服务业,最终若干年会进入家庭。
Q:很多投资人他们认为今年下半年到明年上半年是具身智能的窗口期,你觉得智元什么时候会给市场交出一份比较大的答卷?
A:下半年交卷,我觉得这个说法是对的,现在出来的团队也很多了,大家其实做的一些 PR 也有一些类似,也有一些 Demo,无论是进厂打工或者家居里面做一些 Demo,很难说到底谁的能力比较强,最主要的方式是实战检验。
很多头部公司,像智元,到一个比较高的水平,大家会看你的营收以及效果,下半年我们会密集进入到真正行业交卷的阶段。
Q:大家会有同质化吗?
A:肯定会有一些同质化的,我们现在看到很多我们做的一些方向发布,后面很多的友商也都会来跟随,但是我觉得这个市场还是足够大的,蛋糕也很大的,目前头部的几家都有机会。
Q:想问一下智元会走向安卓,开放本体接口专注于模型授权吗?
A:首先商业模式上来讲,我自己觉得我们不太会走安卓的模式,安卓是谷歌,谷歌本身的商业模式就是一家互联网公司,主要是靠互联网流量广告搜索这些业务,安卓主要是靠搜索。
智元作为一家本体厂商更多提供软硬件一体化,集聚优化给到我们的客户,更像苹果、特斯拉一样软硬件全栈优化,在手机上大家也有体验。我希望我们的产品是能够给用户带来极致体验。
Q:如何应对车企跨界,比如说小鹏?
A:车企下场肯定也是一个必然的过程,它们在很多方面有自己的优势,比如说供应链、管理、智造等等方面,以及智驾上的一些积累。
因为我本人来自智驾行业,我们觉得车企,他可能不一定会有我们现在这么专注,对于只做这件事情的智元来讲,这就是我们唯一要做的事情,我们必须做好,不得不做好。
当然在更大的公司,车企也好,互联网也好,他们更多还是早期的布局,因为这不是他们所谓的主营业务。你做得再好,从你的报表来看,可能更多给你带来研发费用的亏损,他们现在投入都比较有限的,也不排除我们跑通了以后他们深踩油门。
相比于新能源汽车等一些产业,具身智能产业它的出口会大很多,大家的产品是高度同质化的,4 个轮子加沙发。而机器人可以应用的行业很多,最终呈现在每一个行业、每一个细分市场都有比较专业的公司存在。
Q:从智元的某一个产品举例谈谈现在产业链的进展,对于我们产品的交付速度以及这方面的改善?
A:我们今年进入到集中的商业交互阶段,今年会有几千台出货,现在来看的话供应链确实是一个比较大的挑战。
达到大的产能,同时保证产品一致性,还是整体提升的过程,现阶段我们接触的供应商,也在陪他们成长,总体来讲还是偏中小型的企业。过去在机电比较大的玩家还在跃跃欲试,我们最近的生态行业伙伴准备下场,给他们看到了车之后更大的一个机会。
Q:过去一年里面智元比较大的突破,具体可能是在哪个环节?
A:我们的关节模组,尤其我们双足人形,在去年经历量产爬坡,到今年来说都基本做到稳定。去年的那个状态,因为有些车企,像奇瑞大家知道有一个 4S 店的机器人,当时他们是以车企的标准给我们做验收的,过程中确实很难受,行业早期阶段,我们花很长时间才能到这么高的标准,现在我们发现一旦迈过这个坎之后对我们来说也是巨大的蜕变。
Q:智元在不同场景都展示,您觉得现在到了系统化的阶段还是说大家只是在犯错?
A:大家是有差异化的,都是创业公司,本身这个比较难。专注于某一个场景是大家普遍的做法,有些是零售的,有些是工业的,有些是家居的,我觉得这些很正常。
包括智元来讲也没有做所有行业的场景,经历大量长期的筛选评估和客户的推介,过程中形成我们技术相匹配的场景,作业类场景主要就是制造加物流。
Q:在落地这一块咱们参与到什么深度的标准?
A:现在都是在早期,我们都是自己下手做端到端,做交互的,无论硬件改良再到模型核算到最后工程化的落地,都是我们自己亲自参与的。
Q:之后可能会改变?
A:之后一定会变成,把这一套开发的体系形成很好的封装,形成开发的框架,赋能下游生态的伙伴,让他们低门槛地完成一些场景,做低门槛的交付,这是我们期待达到的。
Q:智元有没有感觉在跟应用场景方沟通过程当中发生一些变化?产业交流当中他们的接受度有没有变化?
A:随着具身智能在公众的普及,很多应用方有这样的认知超越,去年我们接触客户他们认为是自动化的生态,直接插上插头就可以直接用。
今天他们也发现,其实这是需要做双向奔赴的事情,它是一个数据驱动的过程,需要机器人在实际场景中去训练,去不断的迭代,其次还要配合做一些产线的改造,更好地让机器人接入进去。同时客户资金的角度愿意去投入,投入很多资金跟我们做 POC 的验证,而不是直接拿来主义。
Q:从创业角度来看,你觉得目前有什么样的经验可以介绍的?
A:现在如果说想要出来创业的话,第一点需要具备跟现在已有玩家的差异化,要有绝门绝技,现在同质化是有一些的。
其次的话就是说,我建议能够找到自己位置的应用场景,再出来创业的话可能会面临融资的挑战,因为这个赛道已经开启了。跑两年多了,很多资本纷纷已经下场或者比较重的压住了几个玩家的,结合自己的特色,还有自己的应用场景讲通整个发展路线,这也是要去花时间的地方。
Q:我们也关注到智元在上海受到特别大关注,从公司管理来说最大压力是什么?在哪些层面或者最重要解决的问题是什么?在光环之下,你们自己最重要的方面是什么?
A:最重要的方面其实在我们的价值观里就体现了,我们讲的就是产品为王和人才为本。
Q:从智元角度讲一下硬件和软件的降本路线大概什么样子?
A:首先降本这个问题我们还是比较理性看待的,因为智元整个应用场景和市场方向我们还是以 B 端为主。从取代人的角度,有一个合理的价格就可以。从我们的角度来看,工业场景的计算,我们现在继续往上走,很多的硬件可以开模,整个制造成本降到相对较低的水平,所以我们并不太担心,能够在成本方面让客户去接受。
Q:在真机数据采集上有哪些新的思路进展和方法?
A:首先数据的话有两方面,一方面是开放式的数据采集,其次我们现在也有一些真实应用场景的数据采集。
很多客户愿意开放他们的场景,无论他们的作业现场,一些零售店里面去采集的,我们通过很多的专用的口令放到通用的合集,同时数据的增广等等维度上,我们结合生成式还有仿真技术。对同样一段数据,改变它的一些环境,光照,甚至是操作物的一些纹理特征形态,去做了很多这方面的工作,来增加多样性。
总的来说我觉得这个数据的事情肯定是一个持续的过程,它不会停止,现在也有很多客户,它希望我们帮他们采集。
比如说一个家电公司就希望我们帮他去采洗碗机,把碗放进去,洗衣机去洗衣服,我们已经收到越来越多这样的一些专业化需求,这些数据我们都可以和客户去沉淀下来,成为我们最宝贵的一个数据资产。
Q:传统工业机器人对某一个产品做具体的工作,它的优势可能在哪儿?
A:我们绝对不是去取代工业自动化的,他们作为一个专用机构极致的对它做了性能优化。我们解决工业自动化无法解决的问题。
Q:今年咱们要出现几千台机器人,他们大概会流向什么样的行业?
A:有几个,有工业场景,有科研教育场景,有展厅门店等等交互场景。
Q:最近智元出来那个机器狗,进入四足领域是什么考虑?
A:四足的话在灵犀产品线下面,灵犀产品线也会布局一些应用。四足现在作为一个成本价格较低,稳定性也比较好的,相对来讲比较成熟的产品,我们也在市场端收到很多需求的声音,可以做一些个人的陪伴,有一些在海外可以做巡逻,家里面看门等等,还是一个非常好的应用的场景。
为什么我们会切入?当然有些友商做得比较早,形成占比比较大的收入规模。
至于内卷这个事情,我们不是为了去内卷,而是说通过更多机器人的产品,行业的应用,其实在过程中更好地理解市场对智能化的需求。也在过程中获取更多的数据,更多的反馈,帮助我们人形的发展做出一些指引。
Q:你之前提到过行业过热,四足这个市场会更快依赖于洗牌?
A:四足这个行业竞争会比较激烈一些,相对门槛更低。
Q:未来智元会进入特种行业吗?比如说巡航那些。
A:特种行业目前暂时没有这个计划。
Q:想问一下关于具身智能,智元有没有出海计划?
A:是有的,我们现在在北美、在欧洲,在中东,在日韩,在东南亚其实都已经有一些布局,很多都是跟当地的合作伙伴去合作,本地化来实现全球化这么一个战略方向。
同时我们的产品今年开始往海外进行交付了,过去大家在很多行业里面也看到了,中国是一个竞争非常激烈的市场,在中国能够杀出来的产品往往在海外能够快速地做突破,这也是我们确实比较看重的一块。
Q:在海外商业化落地跟国内有什么不同?
A:海外很多像欧洲北美的市场,他们比中国市场更保守一些。他们对于新事物,比如说交互类的一些场景,好像关注的相对更少一些,他们更多的会去看一些工业等等领域的应用场景,是否具备落地的条件去做一些降本。
海外用工成本比较高,而且人员管理难度很大,工厂产品的一致性稳定性是巨大的挑战,相对来说中国的员工还是比较稳定的,比较高素质一些。
Q:中美未来在具身智能这一块,态度是怎么样?
A:中美很重视人形机器人和具身智能,很多机构分析,这是中美霸权的最后一役,谁如果打胜这一战就是进入新的生态。
美国在大模型上的积累,还有技术上的积累、人才上面跟我们去竞争,但是这个行业确实有一些不一样的地方,是高度依赖硬件的。这可能也是美国目前遇到的挑战,没有完整的产业链快速批量生产高质量的机器人,相对中国人来讲它的制造业没有像我们这么发达,所以应用场景相对也少一些,这些我觉得是中国的一些优势。
Q:看到我们在产业资本这一块,不管别人投资我们,想知道跟这些产业方的合作具体有什么实质性的进展?
A:对,我们投资比较多的往往是我们一些上游的供应链,比如说传感器、关节等等这些,很多我们引入的一些投资方,股东,其实是一些场景方,包括像汽车,3C电子等。
其实是我们的一些场景方,现在围绕着上下游都已经做了一些紧密的协同,上游的一些供应链企业,我们已经把他们的一些部件往我们的整机导入,下游的场景他们也给我们打开的,共建项目下半年有机会做一些交付。
Q:机器人发展中,哪些部件可能陈胜供应问题?
A:一个传感器,一个关节,还有计算芯片,最后就是电池,大概就是这么几类。
特斯拉引入国产供应链,总体来讲对行业来说也是一个推动,过去新能源,我们国家通过引入特斯拉上海工厂落地,以及对国产替代的要求,把我们整个供应链体系给建起来了,所以才有后面这么多国产新能源雨后春笋般的出现,以后它的技术标准对供应链的要求,还有它的量,其实都会对我们产业有帮助。
芯片这一块一直会成为比较敏感的话题,现在我们一方面使用比较主流的英伟达的芯片,国产我们也看到大算力芯片的出现,100T、1,000T方向的发展,也在适应一些主流的模型,还是比较安全的。