作者 | 肖恩

编辑 | 德新

理想马赫100首发背后

马赫100真正重要的,不是1280TOPS,而是数据流架构。

这届北京车展,全新一代理想L9 Livis终于亮相。这代L9对理想来说意义非凡:它承载的不只是销量目标,更是新阶段理想技术与品牌的集大成之作。

新一代L9 Livis技术亮点颇多,譬如800V全主动悬架、行业首个“完全体”全线控底盘,以及首次搭载的自研马赫100芯片——两颗芯片算力达到2560 TOPS。如果只看这个数字,你可能会把马赫100当作“又一颗更强的自动驾驶芯片”。

但真正值得关注的是,李想反复提到的一个术语:数据流架构。

这个词听起来陌生,但它并不年轻——从第一篇论文算起,这个概念被提出足有五十二年了,而马赫100正是把这条经典理念带入车载实时计算的首次尝试。

 52年前的理论,为什么今天才上车?

要理解数据流架构的价值,得先回到半个世纪前的一个大胆设想:计算机究竟应该按指令顺序执行,还是按照数据是否到位来执行?

1974年,MIT的Jack Dennis提出了一个颠覆性的想法。他在会议上描述的画面很简单:程序不再是一串线性的指令,而是一张复杂的依赖网络。每一个操作都是一个节点,只有当它需要的所有数据都到位时,它才会“点火”执行。

数据像河流一样在图中流动,推动程序前行,而不是依赖传统的程序计数器。

这个理念听起来抽象,但优势很明显:它天然适合并行,计算单元不再因为等待数据或分支跳转而闲置,控制开销大幅降低。但是它也有局限性——复杂控制流对它不友好,令牌传递本身也消耗资源,而编译器要把通用程序翻译成这种图形结构,更是难上加难。尽管如此,学术界没有放弃。

1983年,Arvind和Robert Iannucci把这一理念整理成完整的理论体系,区分静态和动态数据流模型。三年后,Arvind和David Culler提出Tagged Token模型,让多条并行任务能动态创建,为MIT Monsoon项目奠定基础。

学术界的探索一次次推进,把数据流从概念推向可实践的蓝图。

然而,即便如此,数据流架构在工业界始终没能扎根。MIT Monsoon、McGill的EARTH、MIT的RAW——这些项目尝试把理论变成机器,却无法在通用计算市场站稳脚跟。

原因很简单:那时计算的主流仍是通用程序,而数据流架构最擅长的规则、可并行计算几乎没人需要。

直到深度学习出现,一切才开始改变。矩阵乘法和卷积——规则、密集、可并行——成了计算的主流,而数据流的理念与现代AI任务天然契合。

多年的理论积累终于找到了与工业实践的连接点,为后来的TPU、Cerebras、Groq,乃至马赫100的出现埋下伏笔。

当深度学习撞上存储墙,数据流等到了自己的时代

时间快进到2012年。

AlexNet在ImageNet上夺冠,深度学习一夜之间成为热点。矩阵乘法和卷积运算成为主流,而这些运算有一个共同特点:规则、密集、可并行。

这恰恰是数据流架构最擅长的领域。曾经被学术界冷落的理念,突然发现自己的技能正好符合新时代的需求。

这一转折的桥梁,是卡耐基梅隆大学的H.T. Kung。他在1980年代提出的脉动阵列(Systolic Array)设计,虽然当时只在理论上讨论,但原理非常清晰:一个二维计算单元阵列,数据像心跳一样在阵列中流动,每个单元只和邻居通信,不碰全局内存。

这样的设计天然减少了数据搬运开销,刚好解决了“存储墙”问题——也就是冯·诺依曼架构下CPU算得快,但数据传输跟不上,能耗巨大。

2015年,Google推出了第一代TPU,将脉动阵列的理念落到芯片上。两年后,他们在ISCA 2017上发布论文《In-Datacenter Performance Analysis of a Tensor Processing Unit》,标志着数据流架构第一次在工业界获得了大规模验证。

数据流不再只是学术特产,它成为AI芯片设计中绕不开的核心思路。

随后,工业界涌现出多个里程碑产品:Cerebras WSE把整块晶圆做成一颗芯片,几乎消灭了片间通信瓶颈;Groq LPU将调度严格提前到编译期,实现了运行时零调度、低延迟确定性推理;Graphcore IPU和华为昇腾则分别在通用AI加速和数据中心计算中探索各自路径。

这些产品共同回答一个问题:如何让数据在计算单元间顺畅流动,而不是在计算单元和内存间频繁搬运。

从11974年到2015年,数据流架构经历了41年的学术沉淀和工业试验,才真正找到了可以大规模落地的方向。而从数据中心到汽车驾驶座,这一理念又经历了大约十年的工业探索,最终在理想L9上首次落地。

马赫100,理想怎么把大模型搬上车?

当理想在2022年启动自研芯片计划时,他们面临一个核心选择:继续依赖通用GPU,还是打造一颗专门为大规模AI计算设计的芯片。

Orin曾是当时的顶尖选择,但它更像一辆多用途轿车,通用而灵活,却无法在高频低延迟的大模型推理上发挥最大潜力。理想决定打造马赫100——一颗为数据流架构量身设计的芯片,让架构与硬件紧密协作,最大化大模型和自动驾驶场景的效率。

在芯片的硬件设计上,赫100采用了Chiplet模块化设计。

简单来说,芯片被拆分成多个功能模块,每个模块承担计算、控制或缓存任务,通过高速互联协同工作。

这种设计不是简单堆叠多个SOC,而是像把一座复杂工厂分成若干车间,每个车间各司其职,同时通过高效调度保证整体顺畅。Chiplet设计带来的优势有:

提高良率:每个模块单独测试,降低整片报废风险;

灵活迭代:某些模块升级或优化无需重做全芯片;

扩展性强:多模块协作轻松增加算力。

AMD于2019 年发布的Ryzen 3000系列(Zen 2 架构)就是Chiplet设计的经典产品,将核心计算部分和I/O部分分成不同的芯片粒(Chiplet),再通过内部高速互联组合成一颗完整处理器。与Intel当时主推的Core i9‑9900K等传统单片设计相比较,Ryzen 3000系列凭借模块化设计在性能、能效比和制造良率上取得明显优势,也帮助AMD在桌面CPU市场迅速提升竞争力。

同样的架构理念也体现在马赫100身上。Chiplet让马赫100在车规工艺要求、高算力、高可靠性条件下保持模块化协作,让设计复杂度可控、制造风险降低。在此基础上,马赫100能够在后续的数据流优化中发挥更高的资源利用效率。

相较于Thor U,马赫100的Chiplet模式为它提供了更好的扩展性和灵活性,并为后续的数据流架构优化打下了物理基础。

在芯片架构之外,马赫100最核心创新在于编排式数据流架构。

数据流架构的核心理念是:计算单元像自发行动的员工,只要数据到位,就立即处理,无需等待上级指令。

然而,复杂神经网络中上亿条数据依赖的流动,就会产生“令牌路由开销”。可以把它想象成一个巨大的物流中心:如果每件包裹都要临时找路径、排队、确认位置,整体效率就会被拖慢。

马赫100的创新是把数据流路径和处理时序提前规划到编译阶段——就像提前为物流中心规划好所有路线和调度表,每个计算单元都知道自己何时、处理哪条数据,运行时无需再查路线,也不会互相冲突。

这种“编排式数据流”设计带来显著优势:

高利用率:计算单元几乎连续工作,减少闲置;

低延迟:数据直接在计算单元间流动,不经过全局内存中转,绕过存储墙瓶颈;

灵活可编程:数据流路径可随AI模型迭代更新,既不是固定ASIC,也不是简单GPU。

理想在ISCA 2026发表的论文详细呈现了这套设计:如何将复杂模型展开成数据流图,在芯片内部以精确节奏运作。

每个计算单元知道何时处理哪些数据,避免空闲或拥堵,实现了极高的利用率。

Chiplet的芯片硬件设计和编排式数据流架构,让马赫100在实际运行中显示出巨大的优势:单颗芯片的有效算力约是Thor U的三倍,而两颗协同运行时,数据处理效率可达到Thor U的五到六倍。

这意味着在运行大模型时,更多计算单元始终保持满负荷运转,从而显著降低延迟并提升推理吞吐量。

3D ViT:理解连续三维世界的视觉模型

除了硬件和数据流架构创新之外,和马赫100芯片一同首发的还有全新的VLA大模型MindVLA‑o1,其中重要的变化是引入了3D ViT。

3D ViT也就是3D Vision Transformer。自动驾驶和大模型感知任务中,车辆面对的不只是单帧图像,而是复杂的连续三维环境。传统卷积神经网络(CNN)擅长提取局部特征,但在跨帧动作或空间关系分析上存在局限。

3D ViT的核心思想是把空间和时间信息切分成连续的“tokens”,通过 Transformer架构在全局范围内进行注意力计算。

换句话说,它不仅分析每一帧画面,还能够理解场景中物体的运动和三维位置关系。它让车辆不只是“看到”一帧图像,而是理解连续三维世界的动态变化,这是自动驾驶感知和决策的基础。

相较于传统CNN,3D ViT有两个显著优势:

全局建模能力:可以同时捕捉局部细节和全局空间关系,不依赖固定卷积窗口,适合复杂场景分析。

时间信息整合:能够把连续帧的运动信息编码进注意力机制,实现跨帧动态理解,而不仅仅停留在单帧特征。

然而,3D ViT带来的计算量巨大:每token都要与其他token交互,计算依赖复杂且密集,如果没有硬件优化,即便算力足够,也可能因为数据搬运和调度开销而效率低下。

这正是 马赫100的数据流架构大显身手的地方——数据流架构确保每个计算单元持续高效工作,流水线化传递token,使3D ViT模型在车载端能够以低延迟和高吞吐量运行。

通过3D ViT,车辆不仅能捕获视觉信息,更能理解空间结构和动态行为,VLA大模型提供坚实的感知基础。这一创新模型与马赫100的硬件优化紧密结合,实现了端到端高效、实时的视觉感知,为自动驾驶决策提供了可靠支撑。

 数据流架构上车,改变不只是芯片

当马赫100芯片首次搭载理想全新一代L9上车时,它不仅是算力的升级,更是一场整车计算架构的革新。

在过去,车载AI系统受限于GPU的指令驱动和存储瓶颈,计算单元常常处于等待状态,延迟和能耗难以进一步优化。而数据流架构的落地,使每个计算单元都能够根据数据到位情况自主执行任务,车辆的大模型处理能力显著提升。

这一效率提升不仅体现在芯片层面,更延伸到整车系统。根据理想官方公布的数据,新一代L9搭载马赫100后,从摄像头或传感器采集数据,到 AI 模型生成输出,再到车辆执行动作的端到端响应时间可缩短至约200 - 300毫秒。

相比上一代使用Thor U芯片的车型,VLA大模型推理受到算力和数据流限制,端到端响应延迟相对较高,难以满足高频实时决策需求,而新一代L9的延迟降低,使车辆能够更快速地识别突发状况并采取行动 。

这种架构优化对整车计算的影响具体表现在:

感知层:实时处理来自摄像头、雷达和激光雷达的数据流,结合MindVLA‑o1模型和3D ViT,车辆能够更准确理解周围环境和动态物体;

规划与决策层:数据流架构降低了推理延迟,使高频决策和路径规划更可靠,车辆可以快速响应突发状况;

整车协同:不同计算模块之间的数据交换更高效,计算负载分布合理,整车算力资源利用率大幅提升。

对于用户而言,这意味着更平顺、更智能的驾驶体验:自动驾驶系统能够更快识别环境变化,更精准预测行人、车辆和障碍物的运动,更及时做出安全决策。而在技术层面,这也是国内首款将编排式数据流架构从学术概念、工业验证到车载落地的成功案例。

通过这次落地,马赫100和数据流架构不仅验证了理论,更证明了硬件、架构与模型协同优化的巨大潜力。它让整车计算成为一个整体系统,而不再是孤立的芯片堆砌,真正实现了端到端高效智能驾驶。

结语

从最初的学术概念,到工业验证,再到马赫100在理想全新一代L9上的落地,数据流架构经历了漫长而不断优化的历程。它不仅重新定义了芯片设计和计算资源的使用方式,也为大模型在车载端的实时运行提供了可行方案,端到端延迟大幅下降,整车算力利用率显著提升。

理想汽车的创新不仅在于落地数据流架构,还在于将它与自研车载芯片设计和模型架构深度结合,实现整车端到端的高效智能计算。

以前的L9被形象地称为“冰箱、彩电、大沙发”,凭借精准的产品定位和功能组合打破了市场格局。而全新一代L9在此基础上升级为真正的科技旗舰:不仅延续了豪华与舒适,还融入了最前沿的芯片、架构与模型协同创新,体现了理想汽车在技术能力上的深厚积累。

可以预见,数据流架构、马赫100芯片以及MindVLA‑o1模型的协同落地,将继续支撑理想在智能驾驶和车载AI领域的探索。

它不仅是芯片与模型的革新,更标志着国产智能汽车在技术路线和端到端智能化体验上的新高度,为行业树立了新的标杆。