不愿只做车企的理想,如今选择做 AI

看完这场 Livis Day,我最直接的感受是:理想正在变得越来越不像一家传统车企了。

当然,它不是贬义。

如果把时间往前倒几年,我们熟悉的理想,还是那家把家庭需求拆得极细的公司。它会认真告诉你为什么一台车要有冰箱、彩电、大沙发,为什么二排要舒服,为什么三排不能只是应急,为什么一台车应该具有全新定义的智能属性。

但这一次,现场气质明显不一样了。

前一次发布会 CEO 还在屏幕上跳舞,这次就一边玩自己的梗一边致敬各种影视作品,从活动结束时的那支 AI 影片里能看到大量熟悉的元素,让发布会表现得很有活力也很破成见。甚至有些时刻,它不像是在开一场汽车发布会,而是在告诉外界:理想不想再只被理解成一家会造家庭 SUV 的车企。

过去理想最强的能力,是定义家庭用户的需求。而这次的发布会,它想进一步证明自己能定义下一代智能汽车的形态。

所以这场 Livis Day 表面上看内容很多,有智能座舱、AI 模型、Agent 产品、自研芯片、辅助驾驶模型,几乎每一块和智能有关的都展开讲了。但我看完之后却有一个自己未曾设想的感受,理想从今天开始已经不像是一家车企了,而辅助驾驶部分也不再如往年一样作为这场发布会的主导性内容。

用大脑来定义下一代智能座舱

理想过去十年的产品认知,很多都是从座舱里长出来的。它不是最早做大屏的公司,也不是最早讲智能座舱的公司,但它确实是让大家了解到「冰箱彩电大沙发」有多重要的公司。

从理想 ONE 到 L9,再到后来的 L 系列和 MEGA,理想座舱的变化,本质上一直是围绕家庭用户的真实场景展开:驾驶员要好用,副驾要有独立空间,二排要能娱乐和休息,三排不能只是凑数。这也是为什么「冰箱彩电大沙发」虽然听起来很粗暴,但它确实能概括理想过去很长一段时间的产品成功。

到了这次 Livis Day,理想把座舱又往前推了一代。

新一代旗舰座舱搭载更好的屏幕和全球首发高通 8797 Elite 旗舰芯片,CPU 任务处理能力达到 504K,GPU 高精渲染能力 8.1T,NPU 端侧 AI 算力达到 320 TOPS。这里面最值得关注的其实是 NPU,因为如果只是让车机更流畅,今天的高端座舱芯片已经能做到不错的体验,但如果未来座舱要承载端侧智能体、多模态感知、语音理解、主动交互和本地控车,320 TOPS 的 NPU 就会变成一个非常重要的平台。 

这些信息看起来还是座舱硬件升级,但它背后延续的是理想长期以来对车内生态体验的理解。理想不是单纯把屏幕做大,而是在重新分配车内每个人的交互空间。包括配合体验足够完整的音响系统,带上了和多家音乐软件共同打通的高质量音源和内容,甚至于一次性补齐了缺席了多年的 Carplay 和 Apple Music。

这些软件生态这件事很关键,因为过去意味着直接的用户体验,而今后作为用户角度更直接的内容入口,则更影响着即将到来的 Agent 交互范式下的用户使用率和留存。

而这就来到了这场发布会真正值得展开的重点,也就是理想在 AI 领域的最新进展。

理想这次把具身智能的大脑拆成了两部分:一部分是语言智能,另一部分是机器智能。语言智能部分新发布了自研的马赫 Mind-Pro 和马赫 Mind-Edge 两个模型;机器智能由马赫 VLA 承担,负责三维视觉感知和车辆动作控制,也就是看清物理世界,并且让车做出动作。

这个拆分很关键,因为它把过去车机助手和未来汽车智能体之间的差异讲清楚了。

传统车机语音助手,本质上还是功能驱动。用户说一句话,系统触发一个功能,打开空调、导航回家、播放音乐、调节座椅,它解决的是指令执行问题。但理想今天想做的,是让车能够理解一个更复杂的意图,再把意图拆解成任务,然后调用工具,再完成执行。

马赫 Mind-Pro 是一个云端 Agent 大模型。按照理想的说法,它通过混合强化学习并行训练体系,对比 sonnet 4.6, Token 平均消耗降低 38%,工具调用冗余轮次减少 47%,TPS 峰值达到 208 token/s。

这些数字背后真正重要的不是模型跑得快这么简单,而是它在面向 Agent 场景做优化。因为 Agent 不只是聊天,它需要频繁调用工具。如果工具调用太慢、轮次太多、规划链路太长,用户的实际体感就会变差。你让它「帮我找个适合带孩子吃饭、停车方便、路上不太堵、最好还能顺路买杯咖啡的地方」,这不是一句普通导航指令,而是一个复杂任务。它需要理解需求,拆解条件,调用地图、路况、餐饮、停车、车辆位置等能力,再生成一个能执行的方案。

更让人惊讶的是,马赫 Mind-Pro 模型在实测分数对比上,在多个维度都超过了其他主流模型。

马赫 Mind-Edge 则更强调车端本地能力。它是端侧原生具身智能体模型,基于车载芯片和车辆硬件设计,能在本地完成多模态主动感知、人车交互和自主控车。它的价值在于低延迟、高可靠和高隐私,能够做到数据不上传,纯依赖本地算力进行推理。因为它的存在,能够让车更接近一个具身智能体。

这两个模型强大的背后,是源于理想搭建的马赫 Mind 模型训练管线对强化学习足够高的重视,也针对 Agent 做了专门的混合强化学习,来提高 Token 效率和 Agent 性能。

是的,虽然内容精彩,但故事到这里听起来已经感觉逐渐「跑偏 」,我几乎忘记了这是一场车企的发布会。

漫长自研之路

在汽车智能面前,首先避不开的是造出自动驾驶汽车。而这件事从几年前到今天的始末变化虽然是非线性的,但是今天看依然顺理成章。

早期行业做辅助驾驶,更多是在堆感知硬件、堆规则、堆功能覆盖范围。能不能上高速 NOA,能不能城市 NOA,能不能泊车,能不能识别更多障碍物,是一套非常清晰的功能迭代逻辑。

但到了今天,问题已经变了。

当辅助驾驶要面对城中村雨夜窄路、低矮不规则障碍物、交警手势、窄路会车倒车让行这些场景时,系统要解决的就不只是有没有识别出来,而是要理解整个物理世界里发生了什么,并且更快做出动作。

这就不是单独靠一个模型,或者单独靠一颗芯片能解决的事情了。

所以理想目前在辅助驾驶上的核心,其实不是单点能力升级,而是一整套系统性自研工程:芯片、操作系统、模型架构、训练方式、线控底盘响应,全部都要一起重做。

全新 L9 上搭载的马赫 M100 是这套工程里的算力底座。它是理想自研的动态数据流 AI 芯片,单芯片算力 1,280 TOPS。相比传统指令驱动的计算架构,数据流架构更适合 AI 推理中大规模并行计算的需求,核心目标不是单纯堆 TOPS,而是让模型在车端真实运行时更高效。


理想自研的操作系统星环 OS 则承担神经系统的角色。因为智驾不是模型算完就结束了,它还要把摄像头输入、模型推理、系统调度、底盘执行全部串起来。理想这次提到,马赫 VLA 的端到端时延整体优化 40%,其中视觉输入、模型推理链路、线控底盘响应、操作系统调度编排,每一个模块都进行了对应的优化才得到这个结果。而这背后,就是理想长期以来系统性自研工程的价值。

马赫 VLA 则是这套系统里的驾驶大脑。它不再只是传统意义上的感知模型,而是把视觉、语言和动作放进同一个框架里,让系统从看见物体进一步走向理解场景。所以它才能去处理自主倒车让路、识别交警手势、穿越无车道线雨夜窄路这些过去很难靠规则覆盖的场景。

训练方式也在变化。理想提到,马赫 VLA 背后使用了模仿学习和强化学习的混合训练,模仿学习数据量增加 50%,强化学习数据量增加 15 倍,行泊一体模型参数量增加 10 倍,TPS 增大 15 倍。这里真正重要的是,智驾模型不再只是从大量人类驾驶数据里学会像人一样开,还要通过强化学习去探索更安全、更高效的行为策略。

所以看起来理想是在讲辅助驾驶,但其实它讲的是一条更重的路:如果未来汽车要成为一个真正能在物理世界里行动的智能体,那么从芯片到模型,从系统到执行机构,都不能只是拼供应商能力,而必须形成一套自己的闭环。

该怎么造具身智能汽车

理想在这场发布会上给出了具身智能汽车的定义:是一辆电动车、一位职业司机、一台 AI 计算机、一位生活助手。它要保护人类安全,能独立完成任务,并且比人类更高效。

在今天之前,我也一度怀疑理想为什么要喊出这一件行业里没有人讲的逻辑,但是在发布会上,我们看到了一些足以支撑这套叙事的演示 demo,有一些已经实现,而有一些还在路上。

在目前阶段,正如前面提到的,语言智能和机器智能两个部分,理想都已经从底层做好了。

而实际演化为产品,将会转向前面提到的 4 个定义中的职业司机和生活助手——也就是马赫 VLA 和理想同学 Agent。

在过去,如果一个用户提出一个极其模糊且复杂的出行需求——比如「帮我规划一个周末避开暴雨、适合带娃、且沿途有高效充电桩的亲子游路线」,用户需要在天气、地图、充电、小红书等好几个不同的 App 之间来回跳转、手动比对。但在 Agent 逻辑下,用户表达的是一个目标,系统要做的是理解这个目标,然后拆解任务、调用工具、整合结果,最后给出一个可以执行的方案。

在现场 Demo 中,理想同学成功根据一系列非标准的复杂需求,进行分析后完成了任务,尤其是那个「老婆在蓝色港湾,老大在赵全营,老二在望京,老三在中关村,老四在马泉营,还要按指定顺序接人,最后去三里屯给老四过生日」的厂长生活小需求。

这些 Demo 当然有发布会演示的成分,甚至现场也出现了一次识别问题,需要重新来一遍。但我反而觉得,这个小插曲让演示更真实了一点。

而理想这次展示的 Agent 能力,其技术逻辑非常类似于行业前沿的 OpenClaw 的开源架构。

它依赖云端的马赫 Mind-Pro 进行高阶的语义理解和长链条任务拆解。在这一套架构下,车机上的各种应用程序不再是一个个孤立的 App 孤岛,而是被统一抽象成了一套可以被 Agent 调用的接口和 skills 库,然后模型进行 coding 化处理。在这过程中,速度、稳定性、成本效率每一个都成为了不小的问题,但好在实际演示的结果来看,他们做得还不错。

当然,目前理想并没有做到每一个应用都打通接入到 Agent 框架内,在下一个版本中才会上线出行导游 Agent ,但是这件事情已经在过程当中了。但方向已经很清楚了:未来车机的核心不再是一个个孤立 App,而是一个能够理解用户需求、组织应用能力、最终完成任务的 Agent。

这时候,理想前面讲的座舱生态、Carplay、Apple Music、主流手机互联,甚至各种内容和服务入口,也就不只是传统意义上的补齐体验。它们会成为未来 Agent 可以调用的能力边界。生态越完整,Agent 能做的事情就越多;接口越开放,任务链条就越容易闭环。

所以具身智能汽车听起来像一个很大的概念,但它最终其实要落到很具体的两个问题上:

这台车能不能更好地开?以及,它能不能更好地帮我做事?

如果马赫 VLA 解决的是前一个问题,那么理想同学 Agent 解决的就是后一个问题。二者加在一起,才让理想这套具身智能汽车的定义开始变得没那么空。

写在最后

说实话,在前两年行业疯狂吹大模型和机器人概念的阶段,听到车企突然把汽车定义成具身智能,市场的反应大多是谨慎甚至是有些冷眼的——大家太害怕这又是一个为了博取眼球的营销概念。

但今天的 Livis Day,之所以让人觉得有些不一样,是因为理想没有选择继续停留在宏大的概念里打转,而是极其聪明地用具体的交付节点和自研硬件来让概念落地。

他们这次没有画长远的饼,而是直接甩出了一张覆盖 2026 年下半年的 OTA 成长里程碑时间表:

7 月,智驾效率整体提升 30%,协助用户通过复杂的限宽墩和限高杆,出行导游 Agent 正式上线,同时推出省电哨兵模式;

9 月,马赫 VLA 解锁窄路会车、让行等全场景自主倒车能力,理想同学 Agent 能直接接入电脑和手机进行控制;

到了 12 月,所有的能力将被再次提升——发布会上特地放出对标 FSD V14 的狠话。

里面提到的所有 OTA 主要内容,都是围绕着安全、能力、效率三个方向展开,也 call back 了发布会上提到的具身智能汽车三个发展方向。

这些节点很重要,因为它们让具身智能汽车不再只是一个远期概念,而变成了今年内就要被用户验证的产品能力。

虽然发布会的最后,李想依然放出的几个演示看起来依旧不太真实,但是在今天足够闭环的叙事下,也让人期待了起来,可能会在不久的将来能够真正实现。