不造车的「特斯拉」，Momenta如何成为物理AI第一股？,特斯拉物理实验

新眸原创·作者 | 桑明强

时间回到今年北京车展，场馆里人潮涌动，新车发布的音乐声此起彼伏。Momenta的四位合伙人罕见同台。

他们发布的不是新车，也不是什么炫酷的概念。只有一个产品：R7世界模型以及一句话——量产首发。

散场后，不少行业人士在私下讨论同一件事：世界模型，真的上车了。

这不是一个小事件。在此之前，世界模型更多是实验室里的概念、论文里的名词。当它真正出现在量产车的系统里，意味着物理AI的发展，可能走到了一个新的临界点。

两个月后，6月18日，中国证监会的官网挂出了Momenta的上市备案通知。6月23日，Momenta通过港交所聆讯，港交所的大门已经敞开，招股书显示，Momenta近三年营收规模实现跨越式增长：2023年至2025年，Momenta营业收入从7.43亿元增长至24.13亿元，三年翻三倍，年均复合增长率超80%。"物理AI第一股"的称号不胫而走。

一家做自动驾驶的公司，为什么会被放到物理AI这么大的叙事里？世界模型的量产，又为什么会被这么多人看重？

答案藏在行业的底层逻辑里。

世界模型为什么是关键变量

自动驾驶行业发展了十几年，始终绕不开一个问题：长尾场景。

什么是长尾场景？就是那些不常发生，但一旦发生就可能出事故的情况——前车掉下来一个纸箱、路边突然窜出一只猫、雨天路面的积水造成反光误判。这些场景写不完，也测不完。

过去的解决思路比较“暴力”：堆传感器、加规则、刷数据。能见的场景越多，系统就越安全。但这条路走了这么多年，大家慢慢发现，它是线性的。投入越多，效果越好，但永远有覆盖不到的角落。

世界模型的出现，提供了另一种可能性。

它的逻辑是：与其让AI记住所有场景，不如让AI学会物理世界的规律。学会了规律，就能自己推断没见过的场景会怎么发展。

打个比方，一个死记硬背的学生，刷再多题，遇到新题型还是会懵。但一个真正理解了原理的学生，不管题目怎么变，都能自己推导出来。世界模型要做的，就是让AI从前者变成后者。

在Momenta CEO曹旭东看来，"预测是智能进化的基石。"在他的逻辑里，世界模型让AI从"看见世界"进化到了"理解世界"，这是质的变化。

事实上，这不是Momenta一家的判断。英伟达在2026年台北GTC上发布了Cosmos 3，定位是全模态物理AI基础模型；特斯拉的FSD V14已经把世界模型深度融入系统；OpenAI、DeepMind在机器人领域的布局，核心也绕不开世界模型。

这些巨头们逐渐形成一个共识：世界模型是物理AI的基座。就像大语言模型是数字AI的基座一样。

以Momenta的R7世界模型为例，它有三层架构。

第一层是预训练，说白了就是让模型学物理。

数据从哪里来？Momenta有90多万辆量产车在路上跑，攒了120多亿公里的真实里程，从中挑出1亿段最有价值的"黄金数据"。模型看这些视频，慢慢摸透物体怎么运动、因果怎么发生、交互怎么展开。

第二层是仿真，相当于给模型建了一个训练场。

和传统靠渲染做的仿真不一样，R7的仿真是从真实数据里"长"出来的，更接近真实世界。它还能推演——变个道会发生什么，踩脚刹车后车会有什么反应。根据Momenta测算，该效率比实车路测高上万倍。

第三层是强化学习，就是让模型在试错里变聪明。

开得好就奖励，开得不好就惩罚，反复练，最后练出安全、高效又丝滑的驾驶风格。

但这些技术细节还不是最关键的。真正的差异在于，世界模型在整个系统里的位置。

现在行业里大多数公司，是把世界模型当工具用——生成点仿真数据，帮主模型做训练或者测试。相当于给学生加了一套模拟题库。Momenta路径的特殊性，相当于将世界模型直接放到了基座模型的预训练里。不是给题库，而是直接重塑认知方式。

这两种路径的差别，短期看可能只是性能高低，长期看可能是代差。就像大语言模型发展的早期，有人在做规则系统，有人在做预训练，一开始差距不大，越往后差距越大。

曹旭东把世界模型叫做"超级放大器"。他说它能让系统的性能和上限提升10到100倍。这个数字是不是准确，还得看后续的产品表现。但方向是对的——底层范式的变化，带来的从来不是线性提升。

双轮闭环：

真正的护城河是跑出来的

世界模型听上去很美好，但谁都知道，做基础模型是个烧钱的事。

通用物理AI的研发投入，没有持续的现金流，根本撑不到技术成熟的那一天。

换句话说，技术再好，落不了地也是白搭。自动驾驶行业这些年，大家都有一个类似体感，技术路线争来争去，最后发现，能规模化量产才是真本事。

这就是Momenta最有意思的地方。Momenta最厉害的地方，不只是它的技术有多超前，而是它把技术和商业结合得特别好。它有两个飞轮在转，一个是数据飞轮，一个是商业飞轮，两个飞轮互相推着走，越转越快。

值得注意的是，Momenta营收主要由技术开发收入与许可收入两部分构成，其中许可收入增速表现尤为亮眼，从2023年的0.23亿元大幅增长至2025年的9.68亿元，三年翻42倍。

很多人可能不了解这项数据意味着什么，简单翻译一下就是，Momenta与车企互相成就，成了市场爆款。而且，这种车卖得越多、装的车越多，这笔收入就越多，不需要每次都重新投入很多成本，所以含金量更高。

CIC灼识咨询最新发布的蓝皮书显示，2025年3月到2026年2月这一年里，中国第三方城市NOA供应商市场，Momenta的市占率是65%。

客户结构也很说明问题。

国内的主流乘用车企业，Momenta基本都覆盖了。全球前十大车企里，已经有9家和它开展合作。奔驰、宝马、奥迪这三个传统豪华品牌，过去在智驾上都是自己搞或者找Tier 1，现在均转向中国方案，而且不约而同地选择了Momenta。

其中，奔驰的故事最有代表性。

两家从2017年就开始合作，到2025年底第一款车量产，整整用了8年。这个周期听起来很长，但汽车行业的人都知道，跟豪华品牌合作，尤其是涉及到核心的智驾系统，8年真不算久。奔驰的标准有多严，业内有目共睹。

一旦突破了那个门槛，速度就快起来了。2024年，Momenta拿到了奔驰所有电车和油车的业务。2026年北京车展上，奔驰全球首秀的纯电GLC、中国首秀的新一代S级，两款战略级新车全部搭载Momenta的智驾方案，年内这套方案会装到奔驰9款新车上。

宝马和奥迪也没落下。宝马新世代的iX3长轴距版、i3长轴距版、全新7系，全部搭载和Momenta联合开发的L2级领航驾驶辅助系统。奥迪那边，上汽奥迪的E7X率先用上了Momenta的L3级自动驾驶量产能力，这是奥迪在全球和中国的首次应用。E5 Sportback也已经升级搭载了Momenta的强化学习大模型。

BBA三家齐齐选择同一家中国智驾供应商，这在几年前是不可想象的事。背后的原因很简单：中国的路况太复杂了，中国用户对智驾的需求太高了，靠海外团队慢慢摸索，就像让没学过算术的人硬解方程，而Momenta早已在中国市场跑通了海量数据——好比学过奥数的人来做1+1，就会变得很简单。

量产规模上来了，数据就跟着上来了。现在搭载Momenta系统的量产车已经超过90万台，交付了超过100款量产车型，累计定点车型超过210款。这些车每天在路上跑，源源不断地产生真实驾驶数据，这些数据又反过来训练模型，让模型变得更好，然后吸引更多客户，卖出更多车——这就是所谓的"飞轮效应"。

这个飞轮转起来有多快？

Momenta交付第一个10万台，用了2年时间；现在交付10万台，只需要不到40天。这个速度的提升，背后是工程化能力的规模效应，也是数据和商业互相促进的结果。

曹旭东说物理AI的核心是数据Scaling加商业Scaling，而且二者是正反馈的。这话翻译过来就是：数据越多，产品越好；产品越好，卖得越多；卖得越多，数据就更多。这是一个正向循环，一旦转起来，后来者很难追上。

自动驾驶这个行业，规模效应特别强，甚至比芯片行业还强。因为芯片好歹还有硬件成本，软件的边际成本基本是零。同样一套算法，装在10万辆车上和装在100万辆车上，研发成本差不了多少，但数据量差了10倍，体验提升的速度也差了10倍。

这也是为什么曹旭东判断，智驾行业最终全球只会剩下3到4家供应商。赢家通吃的规律，在这里比在任何行业都更明显。现在Momenta已经跑在了前面，而且这个领先优势，随着时间推移，大概率会越来越大。

从自动驾驶到物理AI的无限可能

如果故事只讲到这里，那Momenta还是一家自动驾驶公司，估值逻辑也是汽车供应商的逻辑。

但市场给它的标签是"物理AI第一股"。这背后，是完全不同的想象空间。

事实上，Momenta的股东阵容极其豪华，几乎汇聚了全球最核心的产业和科技战略投资人，以及全球顶级财务投资人。

关键在于，Momenta做的不是某一个具体场景的自动驾驶方案，而是一个平台——All-in-One Platform。这套平台的核心，就是R7世界模型。

传统的自动驾驶公司，往往是每个业务线单独开发一套系统。乘用车做一套，Robotaxi做一套，卡车再做一套，互相之间技术复用度很低，研发成本居高不下，而且每个场景都要从零开始积累数据。

Momenta的思路不一样，更接近于不造车的“特斯拉”。它用世界模型作为统一的基座，上面同时支撑乘用车、Robotaxi、Robovan、Robotruck四大业务。因为世界模型学的是通用的物理规律，不是某个特定场景的规则，所以它可以快速泛化到不同的自动驾驶载体上。

就像一个人学会了开车，不管开轿车还是开卡车，基本逻辑是通的。换个车型，适应一下就行，不用从头学。

需要说明的是，这种复用不只是省钱，更重要的是加速迭代。不同场景的数据可以互相补充，乘用车的长尾场景可以帮助Robotaxi应对复杂路况，卡车的高速数据可以优化乘用车的高速巡航能力。数据越多，模型越强，模型越强，能覆盖的场景就越多——又是一个飞轮。

Robotaxi这边，Momenta已经落地了上海、苏州、慕尼黑、阿布扎比好几个城市。跟Uber、Grab、Lumo、享道出行这些全球头部出行平台都有合作。阿布扎比那个项目挺有意思的，用的是奔驰S级，全球首个基于量产豪华车平台的Robotaxi车队。而且从拿到需求到拿到L4路测牌照，只用了3个月时间。

这个速度，在行业里是很罕见的，背后就是L2++海量数据和算法基座的复用。

特斯拉也在走同样的路。6月初，特斯拉在德州奥斯汀推出了无安全员的Robotaxi服务，还向内华达州申请了5000辆的运营许可。Cybercab也已经开始量产了，年底产能就要爬坡。

这说明什么？说明L2到L4这条路，是真的走得通的。

Robovan和Robotruck也在布局里。按照Momenta的规划，2027年要进入Robotruck领域。

这些市场加起来有多大？CIC有组预测数据：到2030年，全球Robotaxi市场大概818亿美元，中国381亿美元；Robovan全球850亿美元，中国535亿美元；Robotruck全球330亿美元，中国165亿美元。三个加起来，全球差不多2000亿美元，这是超万亿元的市场空间。

这还只是自动驾驶的圈子。如果把眼光放远一点，物理AI的应用场景远不止开车。机器人、工业自动化、物流、建筑……这些领域都需要理解物理世界的能力，而世界模型这个底座，理论上都是可以迁移过去的。

这就有点像当年的Android。一开始Android只是个手机操作系统，但后来它跑到了平板上、手表上、电视上、汽车上，成了一个无处不在的平台。Momenta现在做的事情，有点像物理AI时代的"Android"——先在自动驾驶这个场景把技术跑通、把商业闭环验证了，然后再慢慢往外扩，延伸到更多物理AI的领域。

当然，这条路还很长。物理AI的复杂度，比数字AI高得多，需要的时间也会更长。但方向是明确的，而且Momenta已经占了一个很好的位置。它有数据，有量产经验，有商业闭环，还有一个正在快速迭代的世界模型。这些东西加在一起，构成了它向广义物理AI领域延伸的底座。

回到一开始的话题，市场对"物理AI第一股"的期待，本质上是对物理AI赛道未来的期待。就像当年的"AI第一股"承载了市场对数字AI的想象一样，Momenta的估值，也会成为物理AI行业的一个风向标。

就像当年谷歌搜索刚出来的时候，没人想到它会变成今天这样一个科技帝国。Momenta现在做的，可能也不只是让车开得更智能这么简单。当世界模型真正成熟，当物理AI的能力渗透到各个行业，今天的这一小步，回头看可能就是一个时代的起点。