作者：伟德官网时间：2026-01-19 浏览：来源：伟德APP下载

先自动挖掘最有价值的 corner case

　　2025年12月底▽☆=，一辆搭载 FSD V14 的 Model 3，从美国西海岸的洛杉矶出发◆=◇，驶向了 2732 英里（约 4400 公里）外的南卡罗莱纳州。这是一段横穿美国大陆的行程，穿越 24 个州▷◆★，跨越沙漠、平原、山地和数不清的高速出入口，并覆盖多种不可预见的天气情况。

　　并线、超车、博弈、进出高速、沿途充电，所有驾驶任务，全部由 FSDV14 完成。

　　上一次完成类似横跨美国大陆测试的=，还要追溯到 2015 年的德尔福。当时，德尔福使用的是一辆深度改装的奥迪 Q5，车身布置超过 20 颗传感器◆◇，在极端环境下仍需要人工干预◁，整段行程耗时了 9 天。

　　对比之下=▼，这次特斯拉完成挑战的工具，是一辆只配置 8 个摄像头的量产车 Model 3-=○。

　　显然▪○■，在 FSDV14 版本上◆△●，特斯拉又一次印证其自动驾驶技术的领先性■=●。

　　英伟达机器人业务负责人 Jim Fan 提出了一个耐人寻味的判断：FSD V14 可能已经通过了「物理图灵测试」。

　　从 BEV + Transformer 推动「无图化」，到 FSD V12 掀起端到端浪潮。自动驾驶圈里都开始自我调侃：遇事不决，就看特斯拉。

　　这两年，国内智驾公司沿着「端到端」这条路径狂奔□，也分化出了段式端到端、VLA、世界模型等多条技术支路。

　　卓驭 CEO 沈劭劼在最新一次采访中表态…，现在与特斯拉的距离▲△，已经从最早的三年缩短到一年时间。

　　现在，特斯拉 FSD V14 的任务不仅是 L2，还有已经在路上跑的 L4◇=☆，大量特斯拉 Robotaxi 证明，它已经将 L2 通往 L4 的进阶路径打通•△-。

　　所以▷●，站在这个时间点，有必要思考一个课题◆，特斯拉的自动驾驶，是如何一步步「开悟」的？

　　如果把自动驾驶系统看作一颗大脑▽，那么 FSD 的三代演进，本质上完成了一次大脑进化：从模仿■，到具备连续意识，再到思考与推理，FSD 的自动驾驶水平像升级打怪般○，开启了智能涌现时刻。

　　2024 年初●，特斯拉推送 V12 版本，自动驾驶决策的主动权，第一次从工程师手中转移到神经网络=▽。

　　一个直观变化☆，特斯拉约 30 万行自动驾驶相关代码，被压缩到约 3000 行。

　　过去十多年自动驾驶的主流路线，本质是工程拆解▽■☆，感知、预测▪■、规划▽◆◆、控制△◆▲，各模块各司其职…◇△，按照规则代码保证秩序，但不可避免陷入极端场景无法穷尽、柔性意图难以解释的难题○•▪。

　　直到端到端掀桌，让系统通过数据驱动形式学习人类驾驶行为，将各模块统一成整体，输入感知信息后，立刻输出方向盘和踏板动作。

　　结果立竿见影。特斯拉智驾负责人 Ashok Elluswamy 曾在 X 上公开表示：几个月训练的 V12，已经全面超过了多年积累的 V11。

　　高效的数据驱动方式，让系统在应对复杂交通状况时不再机械反应，而是像人类一样正确博弈◇●。

　　何小鹏在试完 V12 版本后直言，这与此前版本完全是两种能力，并称要向其学习▷。

　　正是从 FSDV12 开始，几乎所有 L2 玩家都见识到了端到端的魅力，并相信一点•，人类无法手把手教会 AI 怎么开车□，但可以让 AI 自己学会开车☆◁，这将是通向自动驾驶终局的最优解。

　　FSD V12 只是证明了端到端的可行性，但要让这套系统稳定、持续得跑起来☆▲★，还需要解决一个核心问题：

　　人类司机在复杂路况中▽，会记住旁车变道激进、前方 500 米有施工区域、左侧车道有大货车。这些信息构成了连续的驾驶意识。

　　特斯拉 AI 团队成员曾在 X 上这样介绍 FSD V13，「它看起来很像 Raptor V3，非常干净▽。」

　　这是一个火箭引擎的类比，意思不是单纯强调「推力更大」，而是它终于具备了可规模化、可持续迭代的工程形态。

　　最直观一点◁◆，FSDV13 在硬件架构上有了全面焕新◁，开启了 HW4 时代。从该版本开始，马斯克着重强调起 AI 计算能力•，将芯片平台 HW4 命名方式改为 AI4。

　　HW4（AI4）是面向 FSDV13 及后续版本打造的主力硬件平台□△。相较 HW3，其算力直接提升 5 倍，业内预估约 720TOPS…○▷。大算力○、大内存、高功耗■、高能效都在为 FSDV13 功能拓展提供充分空间▪★○。

　　简单概括-，FSDV13 在同一时间窗口内，能处理更多信息△，调用更复杂的决策网络，把端到端从「即时反应系统」升级为「连续推理系统」，相当于一次认知宽带的高密度扩容。

　　不容小觑的一点，FSDV13 开始增加「音频输入」，相当于在视觉之外•=，补全了听觉系统的感知范式，以此应对紧急车辆避让问题，也让端到端模型第一次通过声音这种先验信号▼-○，获得提前感知风险的能力。

　　体验层面，FSD V13 带来的决定性意义在于•：集成退车•、倒车和停车功能，端到端终于覆盖了「车位到车位」的全部驾驶场景◇▽。

　　重点是：无需提前建图，不需要记忆路线能够在多层停车场识别箭头…○○、寻找出口，像人一样「读懂环境」◇，相比国内玩家普遍提前学习的做法▽•，无疑领先一截▼。

　　如果说 V13 版本的特斯拉可以在 L2+层面如鱼得水，但到了 L4 层面，无人驾驶的绝对安全性下，这显然还不够用。

　　过去一年，特斯拉基于 Model Y 车型打造的 Robotaxi▼○▪，从奥斯汀首发▪◇•，8 月扩至旧金山湾区，累计测试里程超过了 200 万公里。

　　而按照计划--□，特斯拉 Robotaxi 2026 年将覆盖纽约等 30+城市=△，无方向盘 / 踏板的 Cybercab 车型也将在今年 4 月得州超级工厂量产。

　　但特斯拉 Robotaxi 的规模化、商业化蓝图■◇◆，需要面对安全员下车○■、控制远程监督人车比、充电自动化■…▷、调度与故障响应等系列现实难题•■。

　　。AI 有了更深度的思考■、推理、预测能力。驾驶层面○◇…，可以识别与避让紧急车辆，精准识别路障★、轮胎、树枝○◁、纸箱等零散障碍物☆，误入死胡同也可以自动倒车掉头等。

　　这种类人自动驾驶能力，让 FSD V14 可以做到横穿美国东西海岸 0 接管◁…，而更重要一点，是为无安全员 Robotaxi 运营奠定了坚实基础。

　　除了驾驶能力本身的提升，FSD V14 真正拉开代际差距的地方□，来自于 xAI（马斯克旗下 AI 企业）的

　　此前的 FSD 更像一个「会开车的系统」○-，不会清晰表达，现在引入 Grok 后◆=，FSD 有了一个清晰的认知接口□，带来两项本质升级：

　　。将用户模糊指令转译为可执行的驾驶条件。例如「回家路上顺便买个麦当劳」，在系统内部会被拆解为路径规划、兴趣点搜索与时间约束等一系列结构化指令=，再由 FSD V14 完成具体行驶。二是

　　▪○◁。借助 Grok▽☆，FSD 的驾驶决策可以被翻译成人类语言…▷•，包括为什么出现系统报错=、突然减速等。这让原本封闭的模型黑箱，第一次对乘客、平台和监管变得可读。站在 Robotaxi 运营角度★○，Grok 的价值不在于「更会聊天」，而在于把 FSD V14 的黑箱决策，翻译成乘客、平台与监管都听得懂的语言，让自动驾驶第一次具备真正的运营可读性。

　　由此☆•▪，FSD 的三代演进，本质上都带着革命性任务◁▪□，层层递进•，并接连为后续版本更新埋下铺垫：

　　回看 FSD 从 V12 到 V14 的三次迭代，变化不在于功能堆叠▽◆▪，而在于能力曲线的陡然抬升。特斯拉没有在技术路线上来回试错，而是持续沿着端到端这一主线推进，一次次把原本被认为「过于激进」的设想◆，变成了可落地的工程系统◇。

　　自动驾驶还远没到终点▽=，但至少现在=，特斯拉依然是那个把路线图画对了的玩家。

　　这一技术路径更像是一种方法论，某种程度上，特斯拉也是受到了大语言模型-，尤其是 ChatGPT 训练范式的启发。

　　早期端到端刚盛行时•■▽，几乎所有厂商都声称「已经上船」▪，一度引发了关于端到端真伪的讨论。

　　数据噪声导致安全性威胁。学习到错误的驾驶行为产生违反交规▪▲■、预判错误的低级错误。

　　国内厂商的主流做法相对一致•◆◇：通过规则系统作为安全兜底，试图用传统工程方法守住安全下限；在可解释性问题上▲，要么采用「两段式端到端」作为过渡方案，要么引入大语言模型，通过 VLM、VLA 的方式让 AI 的「思考过程」显性化。

　　而最近从 Ashok Elluswamy 发布的长文中-=，透露了特斯拉的应对招式：

　　Ashok Elluswamy 提到了一项技术★-☆：生成式高斯泼溅。它能使系统在约 220 毫秒内，基于多摄像头视频流，重建连续□-▲、动态▪▪、可推演的三维环境。

　　这意味着-△□，工程师可以直接看到□，模型当下认为道路结构●、周围车辆、遮挡关系各自是什么状态▪◆◁。

　　当系统出现异常行为时，不用再费心思盲猜系统为什么这么开，而是知道它当时是如何理解世界。

　　此外，特斯拉 FSD 也内置了小型化语言推理模型，用于训练 AI 用自然语言来解释自身行为●，据悉一个小型版本的推理模型已经在 FSD v14.x 版本中运行◇☆•。这与 VLM、VLA 有异曲同工之意。

　　，Ashok Elluswamy 强调：「它并非预测给定状态下的行动，而是根据当前状态和下一步行动来合成未来状态。」从演示视频看，它主要能完成两项任务：

　　◆。在同一段历史数据上，接入不同版本的 FSD•••，让它们在模拟世界中做出不同决策，并推演出多条物理上合理的未来轨迹，用结果来评估优劣；二是

　　☆★▼。通过调整计算资源□-○，模型可以实时生成超过 6 分钟的完整驾驶过程●☆，期间 8 个摄像头◁■▪、每秒 24 帧的画面▽●●，全部由神经网络实时合成-。

　　传统仿真训练还是由工程师主导，出现的困难都是人工预想，然后教会系统★…，遇到某种情况人类通常如何操作▲▪。

　　通过生成模型，系统可以批量构造现实中极少遇到☆▷、但风险极高的场景，并在其中反复测试不同驾驶策略的后果。所以端到端系统不会只条件反射式模仿-▷•，而是形成对因果链条的理解▷，以此建立对自动驾驶安全性的深度理解。

　　当模型既能清楚地「看到自己所处的世界」，又在训练中反复经历过「错误决策会导致什么结果」，系统的行为边界会自然收敛。

　　彼时他就强调，可以通过「生成式模型」来学习道路车道线…▽▲、车道拓扑结构，以此适应复杂路况变化和不规则道路结构。

　　同时，演讲中也花大篇幅介绍通用世界模型◁，即构建一个能够理解环境、预测未来、推理潜在变化的连续空间模型，并将其作为训练基础。

　　换句话说，在端到端真正走向规模化之前▽•，特斯拉就已经默认☆○，端到端必须生长在一个可生成、可推演、可验证的世界之上。

　　正因如此，FSD 的进化路径并不是「端到端不行就打规则补丁」，而是提前重构了系统理解世界的方式=□▷，生成式技术与世界模型成为端到端自动驾驶系统得以稳定生长、快速跃迁的基础设施。

　　今天无论是 L2 智驾公司△、L4 Robotaxi 玩家◇，还是具身智能初创团队，这三条看似不同的赛道，如果取一个交集，答案几乎一定指向同一家企业——特斯拉。

　　大家都在盯着特斯拉◆▷○，拆解它的技术路径▪□▪、复盘它的版本迭代…•▷，试图从中找到「可复制的方法论」。

　　但问题在于■▼，特斯拉并不是在单点突破某一条赛道，而是把自动驾驶、Robotaxi 与人形机器人△▼▷，放在同一个长期工程语境里统一推进•◆◇。

　　Ashok Elluswamy 公开强调，FSD 的核心能力并不只服务于自动驾驶■△•，其感知☆、世界建模与决策体系，理论上可以无缝迁移到擎天柱人形机器人上，即一套 AI 架构，覆盖多个物理智能载体。

　　在《埃隆·马斯克传》中，自动驾驶（FSD）★◇、Robotaxi 与人形机器人三个主题始终贯穿全文▼•…，用通用 AI 接管现实世界的物理任务。

　　正因如此，特斯拉从一开始就在为 FSD 铺设一整座「冰山之下的基座」，而这恰恰是国内玩家最难抄走的部分。

　　尽管砍掉了自研 Dojo 超算的规模化落地计划◁，但特斯拉并没有收缩 AI 投入，而是将重心彻底转向以 NVIDIA GPU 为核心的 Cortex 训练集群•，用于 FSD 与人形机器人的大模型训练。

　　。这背后，是持续多年的百亿美元级资本投入△•-。值得注意的是，这并不包括此前 Dojo 项目已经消耗的数十亿美元沉没成本。

　　对比国内玩家，即便是头部智驾公司，云端训练算力大多仍停留在 10 EFLOPS 量级=▪。

　　以业务形态最接近特斯拉的小鹏为例，其公开数据为：近 2 万张训练卡；年度 AI 训练投入约 50 亿元人民币；总算力突破 10 EFLOPS。

　　显然，这并非「努力程度」的差异，而是资源禀赋的数量级差距。在 AI 时代，算力本质上是一个持续吞噬资本的无底洞，而特斯拉选择了用工业级现金流，长期压住这条曲线。

　　截至 2026 年 1 月 8 日●▲，特斯拉 FSD（监督版）累计行驶里程已达 71.73 亿英里…，其中城市复杂路况超过 25.9 亿英里□。

　　特斯拉构建了一套高度复杂的数据引擎流水线，先自动挖掘最有价值的 corner case，再强化稀有、危险、长尾场景的采样权重，最后形成数据驱动闭环。

　　更关键的是，随着 L4 线路的开启，Robotaxi 的真实运营数据正在成为全新的数据资产。

　　以 FSD V14 为例△，其训练中已经整合了奥斯汀 Robotaxi 测试积累的 1200 万小时真实路测数据…，并通过仿真与生成式世界模型放大，覆盖了施工区域、临时封路等 80% 的非常规城市路况。

　　在这套算力与数据之上■，特斯拉选择了一种极具工程野心的策略：让同一套世界模型、感知与推理架构，被反复复用▼◇、持续放大。

　　这也是为什么在特斯拉的技术体系中★，端到端、世界模型•、生成式建模■★、强化学习=▼，甚至 VLA 并非彼此排斥，而是可以被同时吸收进来•-，为自动驾驶服务◆▲。

　　当国内玩家仍在争论 VLA or 世界模型更先进★••；是「语言即世界」，还是「空间即世界」是真理时。特斯拉的态度反而异常简单□●-：

　　这种高度工程主义立场=◆○，决定了特斯拉不会被单一范式所束缚，也不会在路线选择上频繁摇摆。

　　特斯拉 FSD 的领先的核心原因，在于它在更早的时间节点••▷，就启动了一套高投入-•☆、慢回报、极度吃耐心的长期工程。这套工程的前提条件：全球最大规模的车队□○★、可持续的现金流、跨自动驾驶与机器人的统一战略，本身就难以复制。

　　这也是为什么过去两年◆，我们看到国内智驾公司在技术路径上呈现出高度分化：有人选择「两段式端到端」先稳住下限□，有人引入 VLA、世界模型尝试抬高上限，也有人把重心放在中阶智驾质性比层面的极致打磨上○■▽。

　　相反，随着端到端范式逐渐收敛、硬件平台趋于统一、数据闭环开始真正跑通，国内玩家与特斯拉的差距，正在

　　接下来的竞争焦点在于，谁能在有限资源下◆，把模型、数据与产品磨到足够扎实…。

　　国内企业真正需要回答的问题△◁，不是如何抄特斯拉的作业，而是在无法复制全部前提的情况下●，如何走出一条适合自身资源结构的最优路径。

　　是合并资源抱团取暖▼○，实现 1+1 大于 2，还是深度绑定主机厂，获得持续性量产角度保证，亦或者在无人物流、商用车细分场景打造第二增长曲线◁△•。

　　毕竟，智驾开启「大逃杀」后◆▲，生存法则之一的确是紧跟特斯拉，但第一条永远是，先好好活下去。

上一篇：这种分工协作模式的优势在于：既补齐了智能化
下一篇：进一步明确了产业链上下游各相关企业主体的一