
在过去两年的时间里,机器人给人们生活带来最大的震撼,莫过于能跑、能跳、能完成高难度动作。但是,这些花活放到 2026 年的今天,早就不新鲜了,头部公司多两个花活,腰部公司做得大差不差,尾部公司也能放出几个 Demo。
作为一个潜力巨大的行业,机器人的想象空间远不止于此。
开发出表演性质的机器人,让机器人公司的认知度实现了从 0 到 1 的突破;而规模化部署在各行各业,才是机器人公司从 1 发展到 10 的关键环节。
也正因此,今年有越来越多的的声音在讨论,机器人究竟什么时候才能真正进入我们的世界。
昨天上午,在首届香港具身智能产业峰会暨 2026 智元合作伙伴大会上,智元联合创始人、总裁、CTO 彭志辉(aka 稚晖君)就提到:「具身智能产业不再是单点能力的炫技,而是一个系统化的工程。」

这或许也是当下整个具身智能行业最明显的变化:行业正在从艺术表演,逐渐转向生产力落地。
而智元在这个阶段,正在筑起自己的护城河。

2030 目标千亿营收
在大会的演讲中,彭志辉提出了具身智能产业发展的「XYZ 曲线」,将整个产业发展分为了三个阶段。

他判断,近几年具身智能产业快速崛起,机器人像人一样动了起来。并且,具身智能行业完成了运动智能的突破,不少商场也实现了本体的稳定量产。这也就是具身智能产业的 X 曲线。
但是,从 2026 年开始,整个行业进入部署成长期,也就是进入了 Y 曲线。从这一阶段开始,机器人需要创造价值,像人一样干活,最终让机器人的生产力接近人类。
从 2030 年开始,具身智能产业进入部署普及期,也就是 Z 曲线。这一阶段,机器人的泛化实现突破,迎来 ChatGPT 时刻,最终机器人的生产力超越人类。
「XYZ 曲线」恰好对应了智元「358 宏图计划」。其中,「3」是指智元从 2023 年成立至 2025 年的 3 年时间,已经走完了 X 曲线的阶段,实现了生产力入门,并且达成了 10 亿元以上的年营收。

从 2026 年开始,智元机器人将会开启 Y 曲线,将生产力从 0 到 1 落地,并且目标是在智元机器人成立 5 年时(2027 年),达成年度 100 亿以上的营收额。
2027 年后,智元机器人开始迎接第三曲线,并在智元机器人成立 8 年时(2030 年),实现年 1,000 亿元以上的营收。
实际上,智元已经在多个生产力场景实现了落地。其中包括机器人进入产线完成物料搬运、人机协同作业,以及在零售场景中承担导购、接待、导览等工作。
今年 4 月,智元在龙旗科技南昌工厂完成了 8 小时真实产线直播,累计完成近 3,000 次任务,成功率达到 100%。
同时,部分机器人也已经进入运营商展厅、消费电子门店以及海底捞等服务场景。
相比此前行业大量「表演型」展示,这种变化意味着机器人开始第一次真正进入现实工作流。

一体背后,更重要的是三智
智元创始人、董事长、CEO 邓泰华在演讲中提到了智元的产品策略,简单来说是「一体三智」。也就是一个本体,加上运动智能、作业智能以及交互智能。

其中,本体决定机器人究竟能进入什么场景。比如双足机器人更适合服务业,四足机器狗更适合巡检,而轮式机器人或许更适合工厂。
而真正决定机器人商业化高度的,是后面的「三智」。
过去一年,行业最容易被感知到的,是运动智能的快速进步。
智元现场发布了运动智能基座模型 BFM(Base Foundation Model),目标是让机器人具备更通用、更自然的动作理解与执行能力。它的核心思路,是通过大规模、多样化的人类动作数据训练,构建一个能够理解和生成复杂行为的基础模型,从而支持机器人在不同场景中的运动智能。

从架构上看,BFM 采用了运动混合专家架构(MoE),并结合教师-学生训练框架以及无监督强化学习(FB)等方法,提升模型在复杂任务中的泛化能力和学习效率。BFM 不只是单一动作模型,而是一个覆盖「数据采集—训练—部署」的完整体系:一方面通过海量、多模态的人类动作数据建立数据基石;另一方面结合 Sim-to-Real 等先进训练范式,让机器人能够把虚拟环境中的学习能力迁移到真实世界。
在应用层面,BFM 已经展示出较强的泛化能力。例如通过 zero-shot / few-shot 学习,机器人能够快速模仿和复现人类动作;同时借助 VR 动捕与全身运动追踪,机器人还可以学习更加复杂、连续的人类行为。
这意味着,机器人未来不再局限于固定程序控制,而是有机会像「大脑+身体」一样,通过基础模型获得跨场景的运动能力,为服务、工业乃至家庭机器人提供统一的运动智能底座。
而更进一步的,是生成式运动模型 GCFM。过去机器人做动作,需要人类先提供参考动作;而 GCFM 开始让机器人能够基于文本、音频甚至轨迹,自主生成动作。

例如输入一句:打一套太极拳,再向前走两步。机器人便能够自动生成完整连续动作。
某种程度上,这意味着机器人开始从执行动作,逐渐走向生成动作。
从技术架构来看,GCFM 的核心特点包括多模态条件驱动、跨模态统一表征、闭环感知-运动耦合,以及长序列动作生成。模型能够同时接收文本、语音、视觉、视频帧、关键点轨迹等不同输入,再通过统一的 Cross-modal Action Decoder 生成动作控制信号。这意味着机器人未来不仅能看懂环境,还能根据语言指令、视觉变化甚至人类演示,自主生成下一步动作。
在模型机制上,GCFM 还引入了类似扩散模型(Diffusion)与 VAE 的生成式结构,用于处理复杂运动控制问题。相比传统控制算法一次只预测短时动作,GCFM 更强调长时间序列动作的连续生成能力,让机器人动作更加平滑、稳定,也更接近人类行为逻辑。同时,其闭环感知反馈机制意味着机器人会不断根据环境变化修正动作,而不是机械执行既定路径。
接下来,智元机器人还会开发感控一体模型,并且彭志辉夜立下了一个目标:未来一年内,让机器人能自主通过任何开放、复杂、动态的环境。

在运动智能之外,作业智能是更关键的一个要素。
作业智能是机器人真正进入物理世界完成任务的能力,这也是当前行业最热门的 Physical AI。
在现场,智元展示的新一代 VLA 模型 GO-2,以及世界模型 GE-2。
彭志辉认为,过去机器人仿真,需要手动搭建 3D 场景、资产与环境;而未来,机器人可以直接在实时生成的世界中训练。「让机器人先在世界模型中吃亏,才能少在现实世界里犯错。」
这也是目前行业非常核心的一条技术路线。因为机器人真正进入现实世界后,最大的难题不只是动作,而是长尾场景。如何在低成本情况下完成海量真实世界训练,决定了具身智能最终能否形成规模化能力。
因此,智元还提出了 SOP(分布式在线学习系统)。其核心逻辑类似自动驾驶的数据闭环:机器人在真实场景中持续工作,数据回传云端,之后模型在线迭代,迭代之后再重新下发给机器人。
也就是说,机器人越多,学习速度越快。
这意味着,未来机器人行业真正的壁垒,已经不再是硬件能力了。数据规模、模型能力,以及现实世界中的持续迭代能力才是更为关键的要素。

机器人版的 AWS
除了技术本身,智元另一个非常明显的区别,那就是它正在重新定义机器人的商业模式。
从整个行业的发展来看,机器人行业似乎已经有了一套默认的商业逻辑,靠卖设备赚钱。
但智元从去年起就已经开始推动另一套逻辑:RaaS(Robotics as a Service),也就是机器人即服务。去年年底,智元成立了子公司擎天租,就专门做 RaaS 服务。
在智元看来,机器人并不一定是一次性销售的硬件产品,而更像一种「生产力资源」。工厂不一定需要购买机器人,而可以像雇佣劳动力一样,按月订阅机器人服务。
而这背后所包含的机器人运维、调度、保险、数据、资产管理等等事项,都由运营公司负责。
智元合伙人、联席总裁、营销服总裁姜青松做了一个非常形象的比喻:「擎天租我不认为它像淘宝,内部更常用的类比是亚马逊云。」
因为它提供的,不只是机器人本体,而是机器人能力本身。某种程度上,这也是为什么彭志辉会在现场反复提到一个观点:未来机器人既是执行器,也是 Token 消费入口。
在他看来,今天的大模型主要还停留在数字世界里消耗 Token,但机器人不同。机器人进入现实世界之后,每时每刻都需要:感知、推理、决策、控制,它不可能是一次性的 Token 调用,而是持续嵌入现实工作流中的 Token 消耗。
因此,机器人未来可能不仅仅是一种硬件产品,而会成为新的 AI 基础设施。而这背后,其实也是智元对于整个行业未来的一种判断。
过去几年,机器人行业最重要的问题,是机器人能不能走两步。但接下来,行业真正的竞争,就会逐渐变成谁能更快让机器人进入真实世界、谁能获得更多真实数据、谁能形成更大的具身数据飞轮。
而随着机器人开始真正进入工厂、零售与服务业,具身智能行业真正的竞争,才刚刚开始。
