极佳视界再获 10 亿元融资,世界模型如何走进家庭和工厂?

6 月 15 日,极佳视界宣布完成 10 亿元 B2 轮融资。

本轮融资由新加坡跨境投资机构狮城资本(多轮持续追投)、中国-比利时基金、建投投资、万向钱潮、复星锐正、华盖创赢、金创投、德屹资本、华仓资本、元石基金等国家队基金、产业资本、财务机构、国资平台共同投资,国中资本、达晨财智、图灵资管等多个老股东持续超额加注。

融资将主要用于「双金字塔」数据与算法体系的持续投入、物理 AGI 基础模型的研发迭代,以及 C 端家庭场景与 B 端工业场景的规模化落地。

值得一提的是,在前不久的 3 月和 4 月,极佳视界就已经分别完成了 10 亿元的 Pre-B 轮和 15 亿元的 B1 轮融资。

在短短 3 个月内,极佳视界总共完成 3 轮融资,融资金额已经达到了 35 亿元,这样的融资节奏和密度在具身智能行业中并不常见。

在行业整体仍处于早期验证阶段的情况下,为什么极佳视界能够在今年连续完成大额融资?

这背后被押注的,其实不只是机器人本体,更是一条关于世界模型走进真实场景的全栈路线。

动作之外,机器人更需要理解物理世界

过去几年,具身智能行业经历了一个明显变化。

最早大家关注的是机器人如何稳定动起来,后来变成能不能自主完成任务。

但随着各种各样的 VLA 模型开始应用后,一个越来越重要的问题开始出现:机器人是否真的理解它所在的环境。

因为真实世界并不像实验室,家庭场景中会有杂乱摆放的物品、变化的光线、随机出现的人,充满各种不确定性。

所以机器人不仅需要执行动作,更需要在动作之前形成对于物理世界的理解、预测和决策,而这些正是以语言为核心的模型所缺乏的能力。

简单来说,世界模型并不是一个单独模块,而是一种让机器具备理解环境变化能力的方法,它更像是一种让机器人建立环境认知的能力,不死记硬背动作,尝试学习现实世界的规律,从而走进复杂的真实世界中。

这也是为什么,最近一两年世界模型的技术路线开始在具身智能行业中占据越来越重要的位置。

而相比较把世界模型当成单一模块,极佳视界更想搭建的是一套完整的物理 AGI 能力体系。

「双金字塔」体系是什么?

在大语言模型(LLM)逐渐走向成熟的背景下,大家开始期待将 AI 大规模带进物理世界,于是具身智能行业开始崛起。

不过相比较快速发展的 LLM 来说,具身智能如今仍然没有跑通 Scaling Law,这背后的原因其实就在于,具身智能不仅缺乏规模化、可描述物理规律的数据体系,还缺乏能够高效学习物理规律的算法架构。

GPT 之所以能够快速进化,一个核心原因在于互联网上存在海量文本数据,数十年来积累下来的网页、书籍、论文、代码仓库等,构成了海量的训练语料,模型公司通常只需要解决如何筛选和清洗数据的问题,很少需要从零开始创造数据。

但机器人不同,它面对的是物理世界,是一片数据荒漠。为克服这一困境,机器人策略训练必须依赖多元数据范式,包括互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、乃至真机数据,获取数据的难度是 LLM 的数倍。

另外,即便现阶段有了充足的物理世界数据,以语言为核心的 VLA 架构,其实也很难完整地消化这些数据,因为它们往往是先将视觉画面、动作指令都转换成文本式 Token,再统一喂给大语言模型处理。

这样的架构设计很难有效处理三维空间信息、物理逻辑因果关系,还有连贯持续的动作序列,所以在理解物理世界层面天然存在短板。

因此,极佳视界提出的方法是把数据、算法这两大领域,都按照层次展开,分为数据金字塔和算法金字塔,并且两者深度耦合在一起,形成「双金字塔」体系。

其中,数据金字塔本质上是在尝试构建一套更完整的数据体系,由下到上 5 层分别是互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、真机数据。

其核心逻辑其实不难理解:真实数据昂贵,因此需要更多低成本数据;但低成本数据泛化有限,因此又必须不断通过真实世界反馈修正。

在构建数据体系的过程中,极佳视界也同步推出了轮臂机器人本体拾光 S1、低成本真机数采硬件 Maker M01、低成本手持数采硬件 U-01、低成本 Ego 数采硬件 E-01,并且自研具身世界模型平台 GigaWorld-0,形成了一套完整的全栈软硬件体系。

公司预计,到 2026 年底将实现累计 100 万小时规模的真机与无本体采集数据,来支撑模型训练迭代,以此在真实场景的不同任务和本体中实现更好地泛化能力。

在数据成为具身领域目前最大卡点的背景下,一套完整的数据体系,往往是当下行业不同公司间竞争的重要壁垒。

在此之外,则是同样重要的算法金字塔

如今的很多机器人模型已经能够完成不错的动作生成,但 Demo 中的表现良好,并不意味着进入真实世界也能稳定工作。

但真正困难的是换一个房间、换一个光照、换一个摆放方式,机器人是否仍然能完成任务,这背后,其实是环境理解能力的问题。

因此极佳视界提出的「世界生成 + 行动」双模型体系,本质上是希望把理解环境、预测变化、生成动作、反馈优化做成闭环。

所以金字塔的三层从下到上分别是世界模拟、动作对齐和经验强化。

其中,在世界行动模型中,GigaWorld-Policy 在一些任务的成功率上可以提升约 30 个百分点,并且训练效率和推理速度都能实现 10 倍提升。而 GigaBrain-0.5M* 则可以在高难度长时程任务成功率接近 100%。

另外,在世界生成模型中,DriveDreamer 是全球首个面向真实物理世界的自动驾驶世界模型,让世界模型在物理世界中实现大规模落地。

值得一提的是,极佳视界宣布将在今年三季度发布 GigaBrain-1 模型,并持续推进 GigaBrain-2 和 GigaBrain-3 模型,据悉 GigaBrain-3 将基于 1,000 万小时视频数据与 100 万小时世界 – 动作数据进行训练,目标是物理 AGI 的「GPT-3 时刻」。

从数据到模型,极佳视界构建的是一套能够自我进化、相辅相成的能力闭环,而在这个过程中,真实场景的部署就成为了关键一环。

家庭和工厂,两条线同时跑

对于具身智能行业来说,落地一直都是最常被提起的话题,毕竟技术最终还是要走向真实世界中,去创造价值。

不过在当下行业处于发展早期的阶段,大多数具身智能公司,通常会优先选择一个方向,要么先进入工厂,要么先进入家庭。

因为两者难度完全不同,工厂环境更标准化,但对效率要求极高,家庭环境最复杂,但长期想象空间更大。

而极佳视界选择的是双线并进,C 端和 B 端两条线同时跑。

据悉,其通用人形机器人「拾光S1」,已经收获了国内首个真实家庭场景百台订单,并且将会在今年三季度开启规模化运营,同时,下一代家庭通用机器人「拾光S2」也会在三季度进行发布。

此外,在 B 端场景中,今年 4 月,极佳视界联合一汽模具、阿里云,将 GigaWorld、GigaBrain 与 Maker H01 带入一汽模具真实工厂场景。

围绕拆垛、跨区域搬运、动态避障等任务展开验证,将传统自动化方案数月的场景适配周期压缩至数周。

而在今年 6 月,公司宣布计划未来三年联合隆盛科技在无锡部署 1,000 台搭载极佳视界世界模型具身大脑与 Maker 系列的通用机器人。

放在今天行业仍普遍停留在试点、小规模 PoC 阶段的背景下,千台部署是一个值得观察的信号。

除了落地创造价值之外,更重要的就是规模部署会带来大量机器人在场景中运行的真实数据,这些数据又会反过来加速模型能力的升级,从而再次推动规模部署,形成一个能力不断迭代的「数据飞轮」。

物理 AI 的竞争,不止于单点能力

过去几年,整个具身行业展示了大量令人惊艳的 Demo。

但大家也越来越意识到,相比较跳舞表演、工作 Demo,真正困难的部分,是如何让机器人更加稳定地进入真实世界。

所以现在的资本更看重的,也不再只是单点能力,而是数据、模型、硬件、量产、工程化与场景闭环于一体的全栈闭环。

从某种程度上看,极佳视界连续获得融资背后,被押注的也是这样一种能力。

极佳视界创始人兼 CEO 黄冠是清华大学自动化系创新领军工程博士,曾任地平线视觉感知技术负责人、鉴智机器人合伙人兼算法副总裁,且在微软亚洲研究院、三星中国研究院等顶尖研究机构拥有工作经历,在物理 AI 领域深耕多年,同时具备技术创新、产业落地和连续创业经验。

而且从公司核心团队履历来看,他们经历了从 CV、自驾、具身、世界模型等物理 AI 过去十年的发展历程,CV 时代多次主导全球最具影响力视觉 AI 比赛并拿到冠军,自动驾驶时代的 BEVDet 等系列工作长期排名 nuScenes 全球第一,世界模型和具身时代,DriveDreamer 则实现了世界模型的大规模产业落地。

并且团队核心成员均来自顶级学术机构和头部科技企业,包括清华、北大、中科院、CMU;地平线、阿里云、博世、百度等。

另外,引用近 2 万次的世界前 2% 科学家、博士期间超 10 篇顶会一作的世界模型顶尖科学家,也在此汇聚。

总体来看,这是一支在数据、模型、硬件、量产、工程化和场景等方面具备充足落地经验的团队,在具身智能逐步走向落地应用的阶段,这样的全栈能力,在行业中并不多见。

写在最后

具身智能走到今天,行业里从不缺惊艳的 Demo,各种跳舞表演节目层出不穷,双手灵巧操作的视频不断刷屏。

但热闹背后,大家也越来越诚实地面对一个现实:让机器人动起来,从来不是最难的事。真正难的,是让它在换了一个房间、换了一种光线、换了一个陌生任务之后,还能稳定地完成工作。

这个问题,指向的重点就是整套全栈系统能否真正理解并适应物理世界。

极佳视界给出的答案是「双金字塔」体系,用分层的数据体系解决数据从哪来、怎么用的问题,用世界生成与行动的双模型架构解决模型能否真正消化物理规律的问题,再让两者深度耦合、相互驱动。

在此之上,C 端家庭和 B 端工业两条线同步推进,用真实场景的数据飞轮让整套体系持续进化。

从这个角度看,三个月、三轮融资、35 亿元,背后押注的重点就是一条从数据、模型再到场景、量产部署的完整技术路线。