52年前的理论上车：揭秘理想马赫100与数据流架构

作者 | 肖恩

编辑 | 德新

理想马赫100首发背后

马赫100真正重要的，不是1280TOPS，而是数据流架构。

这届北京车展，全新一代理想L9 Livis终于亮相。这代L9对理想来说意义非凡：它承载的不只是销量目标，更是新阶段理想技术与品牌的集大成之作。

新一代L9 Livis技术亮点颇多，譬如800V全主动悬架、行业首个“完全体”全线控底盘，以及首次搭载的自研马赫100芯片——两颗芯片算力达到2560 TOPS。如果只看这个数字，你可能会把马赫100当作“又一颗更强的自动驾驶芯片”。

但真正值得关注的是，李想反复提到的一个术语：数据流架构。

这个词听起来陌生，但它并不年轻——从第一篇论文算起，这个概念被提出足有五十二年了，而马赫100正是把这条经典理念带入车载实时计算的首次尝试。

52年前的理论，为什么今天才上车？

要理解数据流架构的价值，得先回到半个世纪前的一个大胆设想：计算机究竟应该按指令顺序执行，还是按照数据是否到位来执行？

1974年，MIT的Jack Dennis提出了一个颠覆性的想法。他在会议上描述的画面很简单：程序不再是一串线性的指令，而是一张复杂的依赖网络。每一个操作都是一个节点，只有当它需要的所有数据都到位时，它才会“点火”执行。

数据像河流一样在图中流动，推动程序前行，而不是依赖传统的程序计数器。

这个理念听起来抽象，但优势很明显：它天然适合并行，计算单元不再因为等待数据或分支跳转而闲置，控制开销大幅降低。但是它也有局限性——复杂控制流对它不友好，令牌传递本身也消耗资源，而编译器要把通用程序翻译成这种图形结构，更是难上加难。尽管如此，学术界没有放弃。

1983年，Arvind和Robert Iannucci把这一理念整理成完整的理论体系，区分静态和动态数据流模型。三年后，Arvind和David Culler提出Tagged Token模型，让多条并行任务能动态创建，为MIT Monsoon项目奠定基础。

学术界的探索一次次推进，把数据流从概念推向可实践的蓝图。

然而，即便如此，数据流架构在工业界始终没能扎根。MIT Monsoon、McGill的EARTH、MIT的RAW——这些项目尝试把理论变成机器，却无法在通用计算市场站稳脚跟。

原因很简单：那时计算的主流仍是通用程序，而数据流架构最擅长的规则、可并行计算几乎没人需要。

直到深度学习出现，一切才开始改变。矩阵乘法和卷积——规则、密集、可并行——成了计算的主流，而数据流的理念与现代AI任务天然契合。

多年的理论积累终于找到了与工业实践的连接点，为后来的TPU、Cerebras、Groq，乃至马赫100的出现埋下伏笔。

当深度学习撞上存储墙，数据流等到了自己的时代

时间快进到2012年。

AlexNet在ImageNet上夺冠，深度学习一夜之间成为热点。矩阵乘法和卷积运算成为主流，而这些运算有一个共同特点：规则、密集、可并行。

这恰恰是数据流架构最擅长的领域。曾经被学术界冷落的理念，突然发现自己的技能正好符合新时代的需求。

这一转折的桥梁，是卡耐基梅隆大学的H.T. Kung。他在1980年代提出的脉动阵列（Systolic Array）设计，虽然当时只在理论上讨论，但原理非常清晰：一个二维计算单元阵列，数据像心跳一样在阵列中流动，每个单元只和邻居通信，不碰全局内存。

这样的设计天然减少了数据搬运开销，刚好解决了“存储墙”问题——也就是冯·诺依曼架构下CPU算得快，但数据传输跟不上，能耗巨大。

2015年，Google推出了第一代TPU，将脉动阵列的理念落到芯片上。两年后，他们在ISCA 2017上发布论文《In-Datacenter Performance Analysis of a Tensor Processing Unit》，标志着数据流架构第一次在工业界获得了大规模验证。

数据流不再只是学术特产，它成为AI芯片设计中绕不开的核心思路。

随后，工业界涌现出多个里程碑产品：Cerebras WSE把整块晶圆做成一颗芯片，几乎消灭了片间通信瓶颈；Groq LPU将调度严格提前到编译期，实现了运行时零调度、低延迟确定性推理；Graphcore IPU和华为昇腾则分别在通用AI加速和数据中心计算中探索各自路径。

这些产品共同回答一个问题：如何让数据在计算单元间顺畅流动，而不是在计算单元和内存间频繁搬运。

从11974年到2015年，数据流架构经历了41年的学术沉淀和工业试验，才真正找到了可以大规模落地的方向。而从数据中心到汽车驾驶座，这一理念又经历了大约十年的工业探索，最终在理想L9上首次落地。

马赫100，理想怎么把大模型搬上车？

当理想在2022年启动自研芯片计划时，他们面临一个核心选择：继续依赖通用GPU，还是打造一颗专门为大规模AI计算设计的芯片。

Orin曾是当时的顶尖选择，但它更像一辆多用途轿车，通用而灵活，却无法在高频低延迟的大模型推理上发挥最大潜力。理想决定打造马赫100——一颗为数据流架构量身设计的芯片，让架构与硬件紧密协作，最大化大模型和自动驾驶场景的效率。

在芯片的硬件设计上，马赫100采用了Chiplet模块化设计。

简单来说，芯片被拆分成多个功能模块，每个模块承担计算、控制或缓存任务，通过高速互联协同工作。

这种设计不是简单堆叠多个SOC，而是像把一座复杂工厂分成若干车间，每个车间各司其职，同时通过高效调度保证整体顺畅。Chiplet设计带来的优势有：

提高良率：每个模块单独测试，降低整片报废风险；

灵活迭代：某些模块升级或优化无需重做全芯片；

扩展性强：多模块协作轻松增加算力。

AMD于2019 年发布的Ryzen 3000系列（Zen 2 架构）就是Chiplet设计的经典产品，将核心计算部分和I/O部分分成不同的芯片粒（Chiplet），再通过内部高速互联组合成一颗完整处理器。与Intel当时主推的Core i9‑9900K等传统单片设计相比较，Ryzen 3000系列凭借模块化设计在性能、能效比和制造良率上取得明显优势，也帮助AMD在桌面CPU市场迅速提升竞争力。

同样的架构理念也体现在马赫100身上。Chiplet让马赫100在车规工艺要求、高算力、高可靠性条件下保持模块化协作，让设计复杂度可控、制造风险降低。在此基础上，马赫100能够在后续的数据流优化中发挥更高的资源利用效率。

相较于Thor U，马赫100的Chiplet模式为它提供了更好的扩展性和灵活性，并为后续的数据流架构优化打下了物理基础。

在芯片架构之外，马赫100最核心创新在于编排式数据流架构。

数据流架构的核心理念是：计算单元像自发行动的员工，只要数据到位，就立即处理，无需等待上级指令。

然而，复杂神经网络中上亿条数据依赖的流动，就会产生“令牌路由开销”。可以把它想象成一个巨大的物流中心：如果每件包裹都要临时找路径、排队、确认位置，整体效率就会被拖慢。

马赫100的创新是把数据流路径和处理时序提前规划到编译阶段——就像提前为物流中心规划好所有路线和调度表，每个计算单元都知道自己何时、处理哪条数据，运行时无需再查路线，也不会互相冲突。

这种“编排式数据流”设计带来显著优势：

高利用率：计算单元几乎连续工作，减少闲置；

低延迟：数据直接在计算单元间流动，不经过全局内存中转，绕过存储墙瓶颈；

灵活可编程：数据流路径可随AI模型迭代更新，既不是固定ASIC，也不是简单GPU。

理想在ISCA 2026发表的论文详细呈现了这套设计：如何将复杂模型展开成数据流图，在芯片内部以精确节奏运作。

每个计算单元知道何时处理哪些数据，避免空闲或拥堵，实现了极高的利用率。

Chiplet的芯片硬件设计和编排式数据流架构，让马赫100在实际运行中显示出巨大的优势：单颗芯片的有效算力约是Thor U的三倍，而两颗协同运行时，数据处理效率可达到Thor U的五到六倍。

这意味着在运行大模型时，更多计算单元始终保持满负荷运转，从而显著降低延迟并提升推理吞吐量。

3D ViT：理解连续三维世界的视觉模型

除了硬件和数据流架构创新之外，和马赫100芯片一同首发的还有全新的VLA大模型MindVLA‑o1，其中重要的变化是引入了3D ViT。

3D ViT也就是3D Vision Transformer。自动驾驶和大模型感知任务中，车辆面对的不只是单帧图像，而是复杂的连续三维环境。传统卷积神经网络（CNN）擅长提取局部特征，但在跨帧动作或空间关系分析上存在局限。

3D ViT的核心思想是把空间和时间信息切分成连续的“tokens”，通过 Transformer架构在全局范围内进行注意力计算。

换句话说，它不仅分析每一帧画面，还能够理解场景中物体的运动和三维位置关系。它让车辆不只是“看到”一帧图像，而是理解连续三维世界的动态变化，这是自动驾驶感知和决策的基础。

相较于传统CNN，3D ViT有两个显著优势：

全局建模能力：可以同时捕捉局部细节和全局空间关系，不依赖固定卷积窗口，适合复杂场景分析。

时间信息整合：能够把连续帧的运动信息编码进注意力机制，实现跨帧动态理解，而不仅仅停留在单帧特征。

然而，3D ViT带来的计算量巨大：每token都要与其他token交互，计算依赖复杂且密集，如果没有硬件优化，即便算力足够，也可能因为数据搬运和调度开销而效率低下。

这正是马赫100的数据流架构大显身手的地方——数据流架构确保每个计算单元持续高效工作，流水线化传递token，使3D ViT模型在车载端能够以低延迟和高吞吐量运行。

通过3D ViT，车辆不仅能捕获视觉信息，更能理解空间结构和动态行为，VLA大模型提供坚实的感知基础。这一创新模型与马赫100的硬件优化紧密结合，实现了端到端高效、实时的视觉感知，为自动驾驶决策提供了可靠支撑。

数据流架构上车，改变不只是芯片

当马赫100芯片首次搭载理想全新一代L9上车时，它不仅是算力的升级，更是一场整车计算架构的革新。

在过去，车载AI系统受限于GPU的指令驱动和存储瓶颈，计算单元常常处于等待状态，延迟和能耗难以进一步优化。而数据流架构的落地，使每个计算单元都能够根据数据到位情况自主执行任务，车辆的大模型处理能力显著提升。

这一效率提升不仅体现在芯片层面，更延伸到整车系统。根据理想官方公布的数据，新一代L9搭载马赫100后，从摄像头或传感器采集数据，到 AI 模型生成输出，再到车辆执行动作的端到端响应时间可缩短至约200 - 300毫秒。

相比上一代使用Thor U芯片的车型，VLA大模型推理受到算力和数据流限制，端到端响应延迟相对较高，难以满足高频实时决策需求，而新一代L9的延迟降低，使车辆能够更快速地识别突发状况并采取行动。

这种架构优化对整车计算的影响具体表现在：

感知层：实时处理来自摄像头、雷达和激光雷达的数据流，结合MindVLA‑o1模型和3D ViT，车辆能够更准确理解周围环境和动态物体；

规划与决策层：数据流架构降低了推理延迟，使高频决策和路径规划更可靠，车辆可以快速响应突发状况；

整车协同：不同计算模块之间的数据交换更高效，计算负载分布合理，整车算力资源利用率大幅提升。

对于用户而言，这意味着更平顺、更智能的驾驶体验：自动驾驶系统能够更快识别环境变化，更精准预测行人、车辆和障碍物的运动，更及时做出安全决策。而在技术层面，这也是国内首款将编排式数据流架构从学术概念、工业验证到车载落地的成功案例。

通过这次落地，马赫100和数据流架构不仅验证了理论，更证明了硬件、架构与模型协同优化的巨大潜力。它让整车计算成为一个整体系统，而不再是孤立的芯片堆砌，真正实现了端到端高效智能驾驶。

结语

从最初的学术概念，到工业验证，再到马赫100在理想全新一代L9上的落地，数据流架构经历了漫长而不断优化的历程。它不仅重新定义了芯片设计和计算资源的使用方式，也为大模型在车载端的实时运行提供了可行方案，端到端延迟大幅下降，整车算力利用率显著提升。

理想汽车的创新不仅在于落地数据流架构，还在于将它与自研车载芯片设计和模型架构深度结合，实现整车端到端的高效智能计算。

以前的L9被形象地称为“冰箱、彩电、大沙发”，凭借精准的产品定位和功能组合打破了市场格局。而全新一代L9在此基础上升级为真正的科技旗舰：不仅延续了豪华与舒适，还融入了最前沿的芯片、架构与模型协同创新，体现了理想汽车在技术能力上的深厚积累。

可以预见，数据流架构、马赫100芯片以及MindVLA‑o1模型的协同落地，将继续支撑理想在智能驾驶和车载AI领域的探索。

它不仅是芯片与模型的革新，更标志着国产智能汽车在技术路线和端到端智能化体验上的新高度，为行业树立了新的标杆。