先自动挖掘最有价值的 corner case
2025年12月底▽☆=,一辆搭载 FSD V14 的 Model 3,从美国西海岸的洛杉矶出发◆=◇,驶向了 2732 英里(约 4400 公里)外的南卡罗莱纳州。这是一段横穿美国大陆的行程,穿越 24 个州▷◆★,跨越沙漠、平原、山地和数不清的高速出入口,并覆盖多种不可预见的天气情况。
并线、超车、博弈、进出高速、沿途充电,所有驾驶任务,全部由 FSDV14 完成。

上一次完成类似横跨美国大陆测试的=,还要追溯到 2015 年的德尔福。当时,德尔福使用的是一辆深度改装的奥迪 Q5,车身布置超过 20 颗传感器◆◇,在极端环境下仍需要人工干预◁,整段行程耗时了 9 天。
对比之下=▼,这次特斯拉完成挑战的工具,是一辆只配置 8 个摄像头的量产车 Model 3-=○。
显然▪○■,在 FSDV14 版本上◆△●,特斯拉又一次印证其自动驾驶技术的领先性■=●。
英伟达机器人业务负责人 Jim Fan 提出了一个耐人寻味的判断:FSD V14 可能已经通过了「物理图灵测试」。
从 BEV + Transformer 推动「无图化」,到 FSD V12 掀起端到端浪潮。自动驾驶圈里都开始自我调侃:遇事不决,就看特斯拉。
这两年,国内智驾公司沿着「端到端」这条路径狂奔□,也分化出了段式端到端、VLA、世界模型等多条技术支路。
卓驭 CEO 沈劭劼在最新一次采访中表态…,现在与特斯拉的距离▲△,已经从最早的三年缩短到一年时间。
现在,特斯拉 FSD V14 的任务不仅是 L2,还有已经在路上跑的 L4◇=☆,大量特斯拉 Robotaxi 证明,它已经将 L2 通往 L4 的进阶路径打通•△-。
所以▷●,站在这个时间点,有必要思考一个课题◆,特斯拉的自动驾驶,是如何一步步「开悟」的?
如果把自动驾驶系统看作一颗大脑▽,那么 FSD 的三代演进,本质上完成了一次大脑进化:从模仿■,到具备连续意识,再到思考与推理,FSD 的自动驾驶水平像升级打怪般○,开启了智能涌现时刻。
2024 年初●,特斯拉推送 V12 版本,自动驾驶决策的主动权,第一次从工程师手中转移到神经网络=▽。
一个直观变化☆,特斯拉约 30 万行自动驾驶相关代码,被压缩到约 3000 行。
过去十多年自动驾驶的主流路线,本质是工程拆解▽■☆,感知、预测▪■、规划▽◆◆、控制△◆▲,各模块各司其职…◇△,按照规则代码保证秩序,但不可避免陷入极端场景无法穷尽、柔性意图难以解释的难题○•▪。
直到端到端掀桌,让系统通过数据驱动形式学习人类驾驶行为,将各模块统一成整体,输入感知信息后,立刻输出方向盘和踏板动作。
结果立竿见影。特斯拉智驾负责人 Ashok Elluswamy 曾在 X 上公开表示:几个月训练的 V12,已经全面超过了多年积累的 V11。
高效的数据驱动方式,让系统在应对复杂交通状况时不再机械反应,而是像人类一样正确博弈◇●。
何小鹏在试完 V12 版本后直言,这与此前版本完全是两种能力,并称要向其学习▷。
正是从 FSDV12 开始,几乎所有 L2 玩家都见识到了端到端的魅力,并相信一点•,人类无法手把手教会 AI 怎么开车□,但可以让 AI 自己学会开车☆◁,这将是通向自动驾驶终局的最优解。
FSD V12 只是证明了端到端的可行性,但要让这套系统稳定、持续得跑起来☆▲★,还需要解决一个核心问题:
人类司机在复杂路况中▽,会记住旁车变道激进、前方 500 米有施工区域、左侧车道有大货车。这些信息构成了连续的驾驶意识。
特斯拉 AI 团队成员曾在 X 上这样介绍 FSD V13,「它看起来很像 Raptor V3,非常干净▽。」

这是一个火箭引擎的类比,意思不是单纯强调「推力更大」,而是它终于具备了可规模化、可持续迭代的工程形态。
最直观一点◁◆,FSDV13 在硬件架构上有了全面焕新◁,开启了 HW4 时代。从该版本开始,马斯克着重强调起 AI 计算能力•,将芯片平台 HW4 命名方式改为 AI4。

HW4(AI4)是面向 FSDV13 及后续版本打造的主力硬件平台□△。相较 HW3,其算力直接提升 5 倍,业内预估约 720TOPS…○▷。大算力○、大内存、高功耗■、高能效都在为 FSDV13 功能拓展提供充分空间▪★○。
简单概括-,FSDV13 在同一时间窗口内,能处理更多信息△,调用更复杂的决策网络,把端到端从「即时反应系统」升级为「连续推理系统」,相当于一次认知宽带的高密度扩容。
不容小觑的一点,FSDV13 开始增加「音频输入」,相当于在视觉之外•=,补全了听觉系统的感知范式,以此应对紧急车辆避让问题,也让端到端模型第一次通过声音这种先验信号▼-○,获得提前感知风险的能力。
体验层面,FSD V13 带来的决定性意义在于•:集成退车•、倒车和停车功能,端到端终于覆盖了「车位到车位」的全部驾驶场景◇▽。
重点是:无需提前建图,不需要记忆路线 能够在多层停车场识别箭头…○○、寻找出口,像人一样「读懂环境」◇,相比国内玩家普遍提前学习的做法▽•,无疑领先一截▼。
如果说 V13 版本的特斯拉可以在 L2+层面如鱼得水,但到了 L4 层面,无人驾驶的绝对安全性下,这显然还不够用。
过去一年,特斯拉基于 Model Y 车型打造的 Robotaxi▼○▪,从奥斯汀首发▪◇•,8 月扩至旧金山湾区,累计测试里程超过了 200 万公里。
而按照计划--□,特斯拉 Robotaxi 2026 年将覆盖纽约等 30+城市=△,无方向盘 / 踏板的 Cybercab 车型也将在今年 4 月得州超级工厂量产。
但特斯拉 Robotaxi 的规模化、商业化蓝图■◇◆,需要面对安全员下车○■、控制远程监督人车比、充电自动化■…▷、调度与故障响应等系列现实难题•■。

。AI 有了更深度的思考■、推理、预测能力。驾驶层面○◇…,可以识别与避让紧急车辆,精准识别路障★、轮胎、树枝○◁、纸箱等零散障碍物☆,误入死胡同也可以自动倒车掉头等。
这种类人自动驾驶能力,让 FSD V14 可以做到横穿美国东西海岸 0 接管◁…,而更重要一点,是为无安全员 Robotaxi 运营奠定了坚实基础。
除了驾驶能力本身的提升,FSD V14 真正拉开代际差距的地方□,来自于 xAI(马斯克旗下 AI 企业)的

此前的 FSD 更像一个「会开车的系统」○-,不会清晰表达,现在引入 Grok 后◆=,FSD 有了一个清晰的认知接口□,带来两项本质升级:
。将用户模糊指令转译为可执行的驾驶条件。例如「回家路上顺便买个麦当劳」,在系统内部会被拆解为路径规划、兴趣点搜索与时间约束等一系列结构化指令=,再由 FSD V14 完成具体行驶。二是
▪○◁。借助 Grok▽☆,FSD 的驾驶决策可以被翻译成人类语言…▷•,包括为什么出现系统报错=、突然减速等。这让原本封闭的模型黑箱,第一次对乘客、平台和监管变得可读。站在 Robotaxi 运营角度★○,Grok 的价值不在于「更会聊天」,而在于把 FSD V14 的黑箱决策,翻译成乘客、平台与监管都听得懂的语言,让自动驾驶第一次具备真正的运营可读性。
由此☆•▪,FSD 的三代演进,本质上都带着革命性任务◁▪□,层层递进•,并接连为后续版本更新埋下铺垫:
回看 FSD 从 V12 到 V14 的三次迭代,变化不在于功能堆叠▽◆▪,而在于能力曲线的陡然抬升。特斯拉没有在技术路线上来回试错,而是持续沿着端到端这一主线推进,一次次把原本被认为「过于激进」的设想◆,变成了可落地的工程系统◇。
自动驾驶还远没到终点▽=,但至少现在=,特斯拉依然是那个把路线图画对了的玩家。
这一技术路径更像是一种方法论,某种程度上,特斯拉也是受到了大语言模型-,尤其是 ChatGPT 训练范式的启发。
早期端到端刚盛行时•■▽,几乎所有厂商都声称「已经上船」▪,一度引发了关于端到端真伪的讨论。
数据噪声导致安全性威胁。学习到错误的驾驶行为产生违反交规▪▲■、预判错误的低级错误。
国内厂商的主流做法相对一致•◆◇:通过规则系统作为安全兜底,试图用传统工程方法守住安全下限;在可解释性问题上▲,要么采用「两段式端到端」作为过渡方案,要么引入大语言模型,通过 VLM、VLA 的方式让 AI 的「思考过程」显性化。
而最近从 Ashok Elluswamy 发布的长文中-=,透露了特斯拉的应对招式:
Ashok Elluswamy 提到了一项技术★-☆:生成式高斯泼溅。它能使系统在约 220 毫秒内,基于多摄像头视频流,重建连续□-▲、动态▪▪、可推演的三维环境。

这意味着-△□,工程师可以直接看到□,模型当下认为道路结构●、周围车辆、遮挡关系各自是什么状态▪◆◁。
当系统出现异常行为时,不用再费心思盲猜系统为什么这么开,而是知道它当时是如何理解世界。
此外,特斯拉 FSD 也内置了小型化语言推理模型,用于训练 AI 用自然语言来解释自身行为●,据悉一个小型版本的推理模型已经在 FSD v14.x 版本中运行◇☆•。这与 VLM、VLA 有异曲同工之意。
,Ashok Elluswamy 强调:「它并非预测给定状态下的行动,而是根据当前状态和下一步行动来合成未来状态。」从演示视频看,它主要能完成两项任务:
◆。在同一段历史数据上,接入不同版本的 FSD•••,让它们在模拟世界中做出不同决策,并推演出多条物理上合理的未来轨迹,用结果来评估优劣;二是
☆★▼。通过调整计算资源□-○,模型可以实时生成超过 6 分钟的完整驾驶过程●☆,期间 8 个摄像头◁■▪、每秒 24 帧的画面▽●●,全部由神经网络实时合成-。

传统仿真训练还是由工程师主导,出现的困难都是人工预想,然后教会系统★…,遇到某种情况人类通常如何操作▲▪。
通过生成模型,系统可以批量构造现实中极少遇到☆▷、但风险极高的场景,并在其中反复测试不同驾驶策略的后果。所以端到端系统不会只条件反射式模仿-▷•,而是形成对因果链条的理解▷,以此建立对自动驾驶安全性的深度理解。
当模型既能清楚地「看到自己所处的世界」,又在训练中反复经历过「错误决策会导致什么结果」,系统的行为边界会自然收敛。
彼时他就强调,可以通过「生成式模型」来学习道路车道线…▽▲、车道拓扑结构,以此适应复杂路况变化和不规则道路结构。
同时,演讲中也花大篇幅介绍通用世界模型◁,即构建一个能够理解环境、预测未来、推理潜在变化的连续空间模型,并将其作为训练基础。
换句话说,在端到端真正走向规模化之前▽•,特斯拉就已经默认☆○,端到端必须生长在一个可生成、可推演、可验证的世界之上。
正因如此,FSD 的进化路径并不是「端到端不行就打规则补丁」,而是提前重构了系统理解世界的方式=□▷,生成式技术与世界模型成为端到端自动驾驶系统得以稳定生长、快速跃迁的基础设施。
今天无论是 L2 智驾公司△、L4 Robotaxi 玩家◇,还是具身智能初创团队,这三条看似不同的赛道,如果取一个交集,答案几乎一定指向同一家企业——特斯拉。
大家都在盯着特斯拉◆▷○,拆解它的技术路径▪□▪、复盘它的版本迭代…•▷,试图从中找到「可复制的方法论」。
但问题在于■▼,特斯拉并不是在单点突破某一条赛道,而是把自动驾驶、Robotaxi 与人形机器人△▼▷,放在同一个长期工程语境里统一推进•◆◇。
Ashok Elluswamy 公开强调,FSD 的核心能力并不只服务于自动驾驶■△•,其感知☆、世界建模与决策体系,理论上可以无缝迁移到擎天柱人形机器人上,即一套 AI 架构,覆盖多个物理智能载体。
在《埃隆·马斯克传》中,自动驾驶(FSD)★◇、Robotaxi 与人形机器人三个主题始终贯穿全文▼•…,用通用 AI 接管现实世界的物理任务。
正因如此,特斯拉从一开始就在为 FSD 铺设一整座「冰山之下的基座」,而这恰恰是国内玩家最难抄走的部分。
尽管砍掉了自研 Dojo 超算的规模化落地计划◁,但特斯拉并没有收缩 AI 投入,而是将重心彻底转向以 NVIDIA GPU 为核心的 Cortex 训练集群•,用于 FSD 与人形机器人的大模型训练。

。这背后,是持续多年的百亿美元级资本投入△•-。值得注意的是,这并不包括此前 Dojo 项目已经消耗的数十亿美元沉没成本。
对比国内玩家,即便是头部智驾公司,云端训练算力大多仍停留在 10 EFLOPS 量级=▪。
以业务形态最接近特斯拉的小鹏为例,其公开数据为:近 2 万张训练卡;年度 AI 训练投入约 50 亿元人民币;总算力突破 10 EFLOPS。
显然,这并非「努力程度」的差异,而是资源禀赋的数量级差距。在 AI 时代,算力本质上是一个持续吞噬资本的无底洞,而特斯拉选择了用工业级现金流,长期压住这条曲线。
截至 2026 年 1 月 8 日●▲,特斯拉 FSD(监督版)累计行驶里程已达 71.73 亿英里…,其中城市复杂路况超过 25.9 亿英里□。
特斯拉构建了一套高度复杂的数据引擎流水线,先自动挖掘最有价值的 corner case,再强化稀有、危险、长尾场景的采样权重,最后形成数据驱动闭环。
更关键的是,随着 L4 线路的开启,Robotaxi 的真实运营数据正在成为全新的数据资产。
以 FSD V14 为例△,其训练中已经整合了奥斯汀 Robotaxi 测试积累的 1200 万小时真实路测数据…,并通过仿真与生成式世界模型放大,覆盖了施工区域、临时封路等 80% 的非常规城市路况。
在这套算力与数据之上■,特斯拉选择了一种极具工程野心的策略:让同一套世界模型、感知与推理架构,被反复复用▼◇、持续放大。
这也是为什么在特斯拉的技术体系中★,端到端、世界模型•、生成式建模■★、强化学习=▼,甚至 VLA 并非彼此排斥,而是可以被同时吸收进来•-,为自动驾驶服务◆▲。
当国内玩家仍在争论 VLA or 世界模型更先进★••;是「语言即世界」,还是「空间即世界」是真理时。特斯拉的态度反而异常简单□●-:
这种高度工程主义立场=◆○,决定了特斯拉不会被单一范式所束缚,也不会在路线选择上频繁摇摆。
特斯拉 FSD 的领先的核心原因,在于它在更早的时间节点••▷,就启动了一套高投入-•☆、慢回报、极度吃耐心的长期工程。这套工程的前提条件:全球最大规模的车队□○★、可持续的现金流、跨自动驾驶与机器人的统一战略,本身就难以复制。

这也是为什么过去两年◆,我们看到国内智驾公司在技术路径上呈现出高度分化:有人选择「两段式端到端」先稳住下限□,有人引入 VLA、世界模型尝试抬高上限,也有人把重心放在中阶智驾质性比层面的极致打磨上○■▽。
相反,随着端到端范式逐渐收敛、硬件平台趋于统一、数据闭环开始真正跑通,国内玩家与特斯拉的差距,正在
接下来的竞争焦点在于,谁能在有限资源下◆,把模型、数据与产品磨到足够扎实…。
国内企业真正需要回答的问题△◁,不是如何抄特斯拉的作业,而是在无法复制全部前提的情况下●,如何走出一条适合自身资源结构的最优路径。
是合并资源抱团取暖▼○,实现 1+1 大于 2,还是深度绑定主机厂,获得持续性量产角度保证,亦或者在无人物流、商用车细分场景打造第二增长曲线◁△•。
毕竟,智驾开启「大逃杀」后◆▲,生存法则之一的确是紧跟特斯拉,但第一条永远是,先好好活下去。