2030 年千亿营收目标背后，智元真正想做的是什么？

在过去两年的时间里，机器人给人们生活带来最大的震撼，莫过于能跑、能跳、能完成高难度动作。但是，这些花活放到 2026 年的今天，早就不新鲜了，头部公司多两个花活，腰部公司做得大差不差，尾部公司也能放出几个 Demo。

作为一个潜力巨大的行业，机器人的想象空间远不止于此。

开发出表演性质的机器人，让机器人公司的认知度实现了从 0 到 1 的突破；而规模化部署在各行各业，才是机器人公司从 1 发展到 10 的关键环节。

也正因此，今年有越来越多的的声音在讨论，机器人究竟什么时候才能真正进入我们的世界。

昨天上午，在首届香港具身智能产业峰会暨 2026 智元合作伙伴大会上，智元联合创始人、总裁、CTO 彭志辉（aka 稚晖君）就提到：「具身智能产业不再是单点能力的炫技，而是一个系统化的工程。」

这或许也是当下整个具身智能行业最明显的变化：行业正在从艺术表演，逐渐转向生产力落地。

而智元在这个阶段，正在筑起自己的护城河。

2030 目标千亿营收

在大会的演讲中，彭志辉提出了具身智能产业发展的「XYZ 曲线」，将整个产业发展分为了三个阶段。

他判断，近几年具身智能产业快速崛起，机器人像人一样动了起来。并且，具身智能行业完成了运动智能的突破，不少商场也实现了本体的稳定量产。这也就是具身智能产业的 X 曲线。

但是，从 2026 年开始，整个行业进入部署成长期，也就是进入了 Y 曲线。从这一阶段开始，机器人需要创造价值，像人一样干活，最终让机器人的生产力接近人类。

从 2030 年开始，具身智能产业进入部署普及期，也就是 Z 曲线。这一阶段，机器人的泛化实现突破，迎来 ChatGPT 时刻，最终机器人的生产力超越人类。

「XYZ 曲线」恰好对应了智元「358 宏图计划」。其中，「3」是指智元从 2023 年成立至 2025 年的 3 年时间，已经走完了 X 曲线的阶段，实现了生产力入门，并且达成了 10 亿元以上的年营收。

从 2026 年开始，智元机器人将会开启 Y 曲线，将生产力从 0 到 1 落地，并且目标是在智元机器人成立 5 年时（2027 年），达成年度 100 亿以上的营收额。

2027 年后，智元机器人开始迎接第三曲线，并在智元机器人成立 8 年时（2030 年），实现年 1,000 亿元以上的营收。

实际上，智元已经在多个生产力场景实现了落地。其中包括机器人进入产线完成物料搬运、人机协同作业，以及在零售场景中承担导购、接待、导览等工作。

今年 4 月，智元在龙旗科技南昌工厂完成了 8 小时真实产线直播，累计完成近 3,000 次任务，成功率达到 100%。

同时，部分机器人也已经进入运营商展厅、消费电子门店以及海底捞等服务场景。

相比此前行业大量「表演型」展示，这种变化意味着机器人开始第一次真正进入现实工作流。

一体背后，更重要的是三智

智元创始人、董事长、CEO 邓泰华在演讲中提到了智元的产品策略，简单来说是「一体三智」。也就是一个本体，加上运动智能、作业智能以及交互智能。

其中，本体决定机器人究竟能进入什么场景。比如双足机器人更适合服务业，四足机器狗更适合巡检，而轮式机器人或许更适合工厂。

而真正决定机器人商业化高度的，是后面的「三智」。

过去一年，行业最容易被感知到的，是运动智能的快速进步。

智元现场发布了运动智能基座模型 BFM（Base Foundation Model），目标是让机器人具备更通用、更自然的动作理解与执行能力。它的核心思路，是通过大规模、多样化的人类动作数据训练，构建一个能够理解和生成复杂行为的基础模型，从而支持机器人在不同场景中的运动智能。

从架构上看，BFM 采用了运动混合专家架构（MoE），并结合教师-学生训练框架以及无监督强化学习（FB）等方法，提升模型在复杂任务中的泛化能力和学习效率。BFM 不只是单一动作模型，而是一个覆盖「数据采集—训练—部署」的完整体系：一方面通过海量、多模态的人类动作数据建立数据基石；另一方面结合 Sim-to-Real 等先进训练范式，让机器人能够把虚拟环境中的学习能力迁移到真实世界。

在应用层面，BFM 已经展示出较强的泛化能力。例如通过 zero-shot / few-shot 学习，机器人能够快速模仿和复现人类动作；同时借助 VR 动捕与全身运动追踪，机器人还可以学习更加复杂、连续的人类行为。

这意味着，机器人未来不再局限于固定程序控制，而是有机会像「大脑+身体」一样，通过基础模型获得跨场景的运动能力，为服务、工业乃至家庭机器人提供统一的运动智能底座。

而更进一步的，是生成式运动模型 GCFM。过去机器人做动作，需要人类先提供参考动作；而 GCFM 开始让机器人能够基于文本、音频甚至轨迹，自主生成动作。

例如输入一句：打一套太极拳，再向前走两步。机器人便能够自动生成完整连续动作。

某种程度上，这意味着机器人开始从执行动作，逐渐走向生成动作。

从技术架构来看，GCFM 的核心特点包括多模态条件驱动、跨模态统一表征、闭环感知-运动耦合，以及长序列动作生成。模型能够同时接收文本、语音、视觉、视频帧、关键点轨迹等不同输入，再通过统一的 Cross-modal Action Decoder 生成动作控制信号。这意味着机器人未来不仅能看懂环境，还能根据语言指令、视觉变化甚至人类演示，自主生成下一步动作。

在模型机制上，GCFM 还引入了类似扩散模型（Diffusion）与 VAE 的生成式结构，用于处理复杂运动控制问题。相比传统控制算法一次只预测短时动作，GCFM 更强调长时间序列动作的连续生成能力，让机器人动作更加平滑、稳定，也更接近人类行为逻辑。同时，其闭环感知反馈机制意味着机器人会不断根据环境变化修正动作，而不是机械执行既定路径。

接下来，智元机器人还会开发感控一体模型，并且彭志辉夜立下了一个目标：未来一年内，让机器人能自主通过任何开放、复杂、动态的环境。

在运动智能之外，作业智能是更关键的一个要素。

作业智能是机器人真正进入物理世界完成任务的能力，这也是当前行业最热门的 Physical AI。

在现场，智元展示的新一代 VLA 模型 GO-2，以及世界模型 GE-2。

彭志辉认为，过去机器人仿真，需要手动搭建 3D 场景、资产与环境；而未来，机器人可以直接在实时生成的世界中训练。「让机器人先在世界模型中吃亏，才能少在现实世界里犯错。」

这也是目前行业非常核心的一条技术路线。因为机器人真正进入现实世界后，最大的难题不只是动作，而是长尾场景。如何在低成本情况下完成海量真实世界训练，决定了具身智能最终能否形成规模化能力。

因此，智元还提出了 SOP（分布式在线学习系统）。其核心逻辑类似自动驾驶的数据闭环：机器人在真实场景中持续工作，数据回传云端，之后模型在线迭代，迭代之后再重新下发给机器人。

也就是说，机器人越多，学习速度越快。

这意味着，未来机器人行业真正的壁垒，已经不再是硬件能力了。数据规模、模型能力，以及现实世界中的持续迭代能力才是更为关键的要素。

机器人版的 AWS

除了技术本身，智元另一个非常明显的区别，那就是它正在重新定义机器人的商业模式。

从整个行业的发展来看，机器人行业似乎已经有了一套默认的商业逻辑，靠卖设备赚钱。

但智元从去年起就已经开始推动另一套逻辑：RaaS（Robotics as a Service），也就是机器人即服务。去年年底，智元成立了子公司擎天租，就专门做 RaaS 服务。

在智元看来，机器人并不一定是一次性销售的硬件产品，而更像一种「生产力资源」。工厂不一定需要购买机器人，而可以像雇佣劳动力一样，按月订阅机器人服务。

而这背后所包含的机器人运维、调度、保险、数据、资产管理等等事项，都由运营公司负责。

智元合伙人、联席总裁、营销服总裁姜青松做了一个非常形象的比喻：「擎天租我不认为它像淘宝，内部更常用的类比是亚马逊云。」

因为它提供的，不只是机器人本体，而是机器人能力本身。某种程度上，这也是为什么彭志辉会在现场反复提到一个观点：未来机器人既是执行器，也是 Token 消费入口。

在他看来，今天的大模型主要还停留在数字世界里消耗 Token，但机器人不同。机器人进入现实世界之后，每时每刻都需要：感知、推理、决策、控制，它不可能是一次性的 Token 调用，而是持续嵌入现实工作流中的 Token 消耗。

因此，机器人未来可能不仅仅是一种硬件产品，而会成为新的 AI 基础设施。而这背后，其实也是智元对于整个行业未来的一种判断。

过去几年，机器人行业最重要的问题，是机器人能不能走两步。但接下来，行业真正的竞争，就会逐渐变成谁能更快让机器人进入真实世界、谁能获得更多真实数据、谁能形成更大的具身数据飞轮。

而随着机器人开始真正进入工厂、零售与服务业，具身智能行业真正的竞争，才刚刚开始。

2030 年千亿营收目标背后，智元真正想做的是什么？

2030 目标千亿营收

一体背后，更重要的是三智

机器人版的 AWS

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？

2030 年千亿营收目标背后，智元真正想做的是什么？

2030 目标千亿营收

一体背后，更重要的是三智

机器人版的 AWS

相关文章

从智元 6 天工厂作业，看具身智能的「部署态」拐点

宇树风波背后，英伟达的新算力生意

不愿只做车企的理想，如今选择做 AI

这个平平无奇的眼镜，竟将改变 2 亿人的生活？

AI 毒舌锐评杨幂！

塔罗占卜！AI 都整上玄学了？