特斯拉 FSD 的魔力: 当汽车亦是汽车人。

原创范阳 2024-09-11 19:08 上海

一家21世纪科技公司的形态。

特斯拉其实不是一家公司，而是一系列科技公司的组合。从这个发展阶段来说，它已经逐步证明自己是一家世界上最大规模的 “robotics" 科技公司（ “机器人” 在中文翻译后稍微有一些狭义，因为它让人联想起过去那种不够灵巧的拟人机械）。

特斯拉在过去这些年一直在制造 robotics，并且它们背后的 "智能" 可以 “跨身跨形态转移” （ cross-embodiment and cross-form-factor transfer) , 并且特斯拉的 “机器人们” 首先进入了物理世界当中在玩一种开放世界的 “角色扮演游戏”，这是我认为这家公司真正先进的地方。

而回归到汽车本身，因为特斯拉的软件基因非常强大，他们围绕软件为中心重新构建了一整辆汽车。特斯拉又在 2021 年之后逐渐与 AI 以及 “软件2.0” 的范式融合在了一起，重写了许多底层的架构。他们的科技树正在从 transformer 架构走向真正的 Transformers （变形金刚）。

（什么又是软件2.0呢，以后有时间专门写这个话题，可能我的普通水平的概括就是，如果不能让模型处理越来越多的好数据，任何事情就不会变得更好）。

现在的特斯拉是一种架构，而不是一个平台和产品，他们在全世界的超级工厂未来可以基于相同的模块化架构设计适合当地的本地化车辆/机器人设备以及其他 “乐高化” 的智能产品。当中间的复杂性被封装的越来越好以后，以及系统可以越来越 regenerative （反复修正和进化自己），一家公司只需要关注 “最原始的” 输入（数据，原材料，能源）和 “最美妙” 的输出（体验，乐趣，美，爱）。这会是21世纪的科技公司最先进的形态。

今天分享的这篇文章来自 Phil Beisel, 他是前苹果资深工程师，也是特斯拉的竞争对手 Rivian 的前任技术团队创立人（ tech team founder )，原文可以在他的推特上（@pbeisel) 找到。

希望这篇文章对你有启发。

特斯拉 FSD 的魔力

The Magic of Tesla FSD

作者：Phil Beisel

编辑：范阳

写作日期：2024年9月4日

在本文中，我将尝试解释特斯拉的全自动驾驶（ Full Self-Driving，FSD）是如何运作的（从一个较高抽象层次来看），以及为什么它像是一台魔法盒子（ magic in a box ）！

在特斯拉最新发布的 FSD 版本中，自动驾驶正在逐步走向被解决的道路。2024年1月推出的第12版本，采用端到端的人工智能方法（ end-to-end artificial intelligence approach ），相比之前的版本是一个大胆的飞跃。

车辆自动驾驶将深刻改变交通（ Vehicle autonomy will profoundly transform transportation ）— 实现大规模的 “交通即服务”（ transportation-as-a-service at scale ），消除繁琐的通勤过程，并让我们的道路更加安全。

问题所在

The Problem

在过去的40年里，计算机科学家一直在努力解决车辆自动驾驶这一棘手问题。这是一个非常困难的问题 — 驾驶场景复杂、多变，并且在表现形式上是无限的（ driver scenarios are complex, highly dynamic, and infinite in their presentation ）。

问题的第一部分是理解道路的配置及其状态（ understanding the road configuration and its state ）— 这被称为感知（ perception ）。作为人类，我们主要通过眼睛（在某种程度上也通过耳朵）来做到这一点。而车辆则可以通过摄像头和其他传感器，如雷达和激光雷达（ radar and lidar ）来感知。然而，收集这些传感器的数据并不意味着理解（ gathering data from these sensors does not imply understanding ） — 摄像头看到了什么（ what are the cameras seeing ）？在任何特定的道路段上，都可能存在数百个不同的物体 — 有些是静态的，另一些是动态的（处于运动中）。而且从一次遇到到下一次，这段路的情况可能发生变化（ from one encounter to the next, this road segment can change ）。

范阳注：雷达（Radar）就像回声探测，适合测量远距离的物体，在恶劣天气条件下依然有效。激光雷达（Lidar）就像手电筒的光束，能生成更详细的3D图像，但在恶劣天气下效果较差。

以一个十字路口为例。那里可能有道路标志 — 车道线、人行横道、转弯箭头等车道标记。可能有停车或让行标志（或者其他复杂意义的标志，如 “允许红灯右转，但仅限于工作日早上8点到下午5点” ）。可能有交通信号灯，正常工作中或出现了故障（闪烁或断电）。还有移动的物体 — 其他车辆、行人、自行车。可能有临时出现的因素（如雨水、积水、路面坑洞等）；也可能有施工情况（如锥形路标或封闭车道）。

问题的第二部分是决策过程 — 车辆必须决定如何行动；这被称为规划（ The second part of the problem is the decision process-- the vehicle must decide what to do; this is called planning ）。它必须决定应用哪些控制（如加速器、刹车、方向盘）来通过当前的道路段，同时还要决定如何继续前进以到达设定的目标（最终目的地）。其中一部分是避免碰撞— 车辆必须避免与任何静态或动态物体接触。另一部分是方向控制 — 决定在什么车道上、以什么速度行驶。

早期尝试

Early Attempts

在人工智能出现之前，感知和规划问题的解决方法都是基于算法的（ the approach to both the perception and planning problems was algorithmic ）。程序员会编写代码来感知环境并规划车辆的运动（ both perceive the environment and plan the vehicle's movement ）。

例如，假设输入的数据仅来自摄像头（ the input data is only camera data ），程序员必须编写非常复杂的代码，从摄像头捕获的数字图像中找到并分类物体。

图像是由像素组成的，这些像素按行（Y轴）和列（X轴）排列，并带有颜色信息（ Z轴 — 一个32位整数，表示 RGB 值）。因此，一个停车标志只是一系列不同红色的像素，中间是拼写出 “STOP” 字样的白色像素。各种算法模式（例如 Canny 边缘检测器、Sobel 算子等）可以在图像中找到停车标志，但这过程非常复杂且容易出现问题（ very complex and overly brittle ）。如果停车标志部分被遮挡，可能会被机器视觉遗漏（ Stop signs that appear partially occluded might be missed ）。

范阳注：像素的RGB值可以类比为调色盘上的三种颜料 — 红色（R）、绿色（G）和蓝色（B）。就像你可以通过混合不同量的红色、绿色和蓝色颜料来调出不同的颜色，RGB 值通过这三种颜色的组合来表示像素的颜色。

即使使用先进的算法，编写大量代码以在图像中识别物体也是容易出错的，最终这种努力几乎是徒劳的。

同样，基于算法的规划方法同样复杂且容易出错（ An algorithmic approach to planning is equally complex and error prone ）。程序员必须为每一种可能的情况编写代码 — 这就像一个巨大的决策树（如果发生这种情况，那么执行那个操作）。驾驶场景的长尾效应使这一任务几乎不可能完成（ The long tail of driver scenarios makes it a nearly impossible task ）。特斯拉 FSD 的第 11 版在规划上采用的就是这种算法方法。

新模式：软件2.0

A New Model: Software 2.0

前面讨论的算法方法属于传统的软件开发模式。在这种被称为软件1.0的模式中，程序员通过编写代码来解决问题（ programmers write code to solve the problem ），重点是创建确定性系统，即输入被处理后产生可预测的输出（ The focus is on creating deterministic systems where inputs are processed to produce predictable outputs ）。然而，这种模式具有灵活性和可扩展性有限的缺点，处理边缘情况时需要耗费大量精力（系统易脆性），并且随着系统增长，维护也变得复杂。

对于像车辆自动驾驶（ vehicle automation ）这样复杂的软件问题，软件1.0方法显然无法奏效。

幸运的是，一个强大的新模式已经出现，我们称之为软件2.0（ Software 2.0 ）。软件2.0 代表了向数据驱动开发（ data-driven development ）的转变，软件不再是通过明确编写规则来工作，而是从数据中学习（ the software learns from data rather than being explicitly programmed ）。开发人员不再编写规则，而是创建从大型数据集学习模式的模型（ Instead of writing rules, developers create models that learn patterns from large datasets ）。这些模型能够泛化并基于新输入做出预测。

延伸阅读：当比尔·盖茨在 1994 年听到神经网络

在拥有足够的数据和计算能力的情况下，软件2.0模型可以具有极高的预测能力。这样的模型提供了更大的灵活性、适应性，并且在处理复杂的、非确定性任务时具有更大的潜力。系统随着更多数据的输入而不断改进。

软件2.0实现车辆自动驾驶的方法基于人工智能技术，特别是机器学习。机器学习是人工智能（AI）的一个分支，涉及创建从大型数据集学习的模型，并基于这些数据做出决策或预测。

机器学习的起点是数据（ Machine learning starts with data ）。对于车辆自动驾驶，数据主要是视频片段（可能还包括雷达和激光雷达数据）。数据的质量和数量直接影响机器学习模型的性能。与传统编程不同，机器学习算法通过统计技术从示例样本中学习（ machine learning algorithms use statistical techniques to learn from examples ）。这意味着算法在训练阶段识别数据中的模式或规则，而不需要明确编程来执行任务。

特别需要强调的是监督学习（ supervised learning ）。该模型在已知所需输出的标注数据集上进行训练。它学会将输入映射到输出（ It learns to map inputs to outputs ），然后可以预测新的、未见过的数据的结果。

特斯拉全自动驾驶（FSD）：版本12

Tesla FSD: Version 12

特斯拉的 FSD 是一个软件2.0架构，采用数据驱动的方法。FSD 仅使用视频数据，关键部分不依赖其他传感器。正如埃隆·马斯克常说的，“光子进，控制出”（ photons in, controls out ）。

以下是 FSD 架构和内部工作原理的一个大致的高层次描述。特斯拉开发了专有的解决方案，外界所知的细节不多。

如前所述，FSD第12版本相较于之前的版本有着巨大的改变。除了一些框架的协调代码外，没有其他传统代码 — 整个系统完全依赖于AI推理（ Other than some orchestrating code of the framework, there is no code-- it is all AI inference ）。

以下是 FSD 在车辆上执行过程的框图。大致步骤如下：

1. 视频数据输入 ( video data )：来自8个摄像头的视频数据被送入感知过程。

2. 感知过程 ( perception process )：感知过程分析这些数据，确定车辆看到的内容。

3. 规划过程 ( planning process )：规划过程将感知数据与整体导航目标（车辆到达目的地的路线）结合起来，决定车辆的行驶路线。

4. 控制模块 ( controls module )：规划结果被输入到控制模块，该模块通过整合方向盘、加速器和刹车来驱动车辆。

FSD 车载架构框图。

训练与推理

Training vs. Inference

特斯拉使用一种称为神经网络的机器学习技术来实现全自动驾驶（ FSD ）。机器学习涉及一个不对称的架构，有两个不同的过程（ an asymmetric architecture with two distinct processes ）：训练和推理。训练过程发生在数据中心（云端），每个版本进行一次，是过程中的计算密集型部分。在训练过程中，数据用于构建模型。模型创建完成后，将其转移到车辆中（作为 FSD 软件发布的一部分）。第二个过程是推理（ inference ），这在车辆中通过不断运行数据来执行，以驱动车辆。

训练

Training

FSD 训练构建了一个用于感知的模型和一个用于规划的模型。两个模型都使用来自车队（特斯拉客户的车辆）的大量视频数据构建。每辆（具备能力的）特斯拉车辆都通过车辆摄像头传感器捕捉的小视频片段（这些片段可能是H.265格式的视频，每个视频长度为几秒）以及 IMU（ inertial measurement unit，惯性测量单元）和 GPS 数据，为训练过程提供数据。这些数据通过蜂窝移动网络或（更好是在）Wi-Fi上传到特斯拉的云端。数据不需要实时到达，可以批量发送，稍后再传送。

注：在车辆中，惯性测量单元（IMU）是稳定控制、导航和自动驾驶系统的关键组件。它通过测量加速度和旋转速率来检测车辆姿态、速度和重力变化。这些数据有助于实时调整车辆的稳定性，在GPS信号丢失时协助导航，并为高级驾驶辅助系统（ADAS）提供精确的运动数据支持。

从特斯拉客户的车辆生成了大量视频数据（车队中大约有 500 万辆具备能力的车辆）。显然，特斯拉必须在车载系统中应用一些逻辑来决定选择哪些数据以及何时选择（ on-vehicle logic to determine what data to select and when ）。需要注意的是，FSD 推理过程可能在所有时间内运行（即使客户没有明确启用的情况下）。在这种影子模式下，它可以帮助选择关键的视频数据；例如，它可能会选择那些人类驾驶员偏离 FSD 过程预定计划（路线）的驾驶段的视频数据。

训练过程完成后，模型会经过验证（ When the training process completes, the models are validated ）。验证可能涉及模拟仿真（ simulation ） — 在云端使用已知验证数据集运行推理过程（ where the inference process can be run against known validation datasets in the cloud）。通过这种类型的验证后，模型可能会通过员工在实际车辆上在固定和临时路线上（ fixed and ad-hoc routes ）的进一步验证。从一个版本到下一个版本，特斯拉寻求版本改进并避免回归。如果模型得到验证，软件将推送到客户的车队中。

推理

Inference

推理过程发生在车辆内部。自硬件3（HW3）起，所有特斯拉车辆都配备了特斯拉定制的硅芯片，其中包含神经处理单元（NPU）。这些 NPU 拥有专门的操作（如ReLU、Sigmoid、Tanh等），类似于 GPU，但更专注于常见的 AI 推理操作（ common AI inference operations ）。

感知

Perception

FSD 问题的约一半在于感知 — 即理解车辆的环境（ understanding the vehicle's environment ）。

特斯拉 FSD 识别每个摄像头视野中的所有物体。物体被赋予标签（带有一个或多个属性）、大小、位置和矢量表示 — 速度（量值）和方向。固定物体（如标志等）当然有0的量值，但有些物体在移动（例如，一个人可能正以2英里每小时的速度横穿马路）。道路本身也是一种物体，具有大小和可预见的长度，以及任何车道标记（例如分隔道路、路肩等）。需要注意的是，特斯拉 FSD 仅使用摄像头，没有其他主要的传感器输入。

这一识别过程完全是推理的结果（ This process of identification is pure inference ）— 视频片段通过感知推理引擎进行评估（ video clips are evaluated by the perception inference engine ），使用的是在训练过程中构建的模型。输出结果是物体识别（ object identification ）。每个物体都有一个置信度概率 — 例如，一个物体可能以 92% 的置信度被识别为停车标志。

但如果物体的置信度很低，比如只有 10% 置信度呢？这就是机器学习的魔力之处，特别是监督学习。监督学习意味着人类参与其中。置信度较低的物体图像可以被发送回特斯拉的云端进行人工检查 — 人类可以将该物体标记为停车标志、或者其他东西，或者将其丢弃为无效物体。标记后的数据会被反馈到下一次训练迭代中，以提高类似物体的置信度。

以 “停车标志” 检测为例，想象一下这个过程随着时间的推移是如何展开的。系统最初在成千上万张包含标志的图像上进行训练，其中一些是停车标志。这些数据是由人工标记的。系统根据内部的统计权重进行猜测，哪些是停车标志，哪些不是。如果猜错了，它会更新这些权重，以便下次做出更好的猜测。

在训练了所有可用的标记数据后，会进行验证步骤。此时，提供一些包含不同标志的图像，系统再次猜测哪些图像包含停车标志，哪些没有。如果猜测正确，模型就被认为是有效的。

在实际使用中（在车辆上），如果包含停车标志的图像被识别为置信度较低，这些图像会被标记，并反馈到下一次训练迭代中。如果低置信度的停车标志确实是停车标志，它会被标记为这样。通过对这些停车标志的训练，模型的内部权重会更新，以便将来更好地识别这类停车标志。

遇到的停车标志图像越多（想象一下在现实世界中可能遇到的所有变化），系统的表现就越好。

规划

Planning

规划是决定车辆应如何行动的步骤（ the step that determines what the vehicle should do ）。规划是 FSD 的核心所在（也是为什么版本12被认为是突破性的进展），不出所料，如何运作的细节极难描述，因为这些信息是高度机密的。

要有效构建规划模型，显然需要选择良好的驾驶场景进行训练。那些司机沿路线不安全或不正确行驶的场景会从训练数据中剔除。目标是选择良好的驾驶数据（ select good driver data ） — 既不过于激进，也不过于被动，并且符合具体情况。一些数据剔除是显而易见的，例如司机以超出了限速 25 英里/每小时的速度驾驶。

最终，FSD 操作的车辆的目标就是要模仿优秀的人类驾驶员。这实际上是特斯拉通过使用人类的实际驾驶数据实现的 — 它模仿了所有优秀人类司机的综合行为（ it mimics the aggregate behavior of all the good drivers ）。

如前文提到的停车标志感知示例，训练过程始于大量标记好的驾驶场景。系统根据这些标记好的数据对计划目标（如：以当前速度前进，开始减速，或者变换车道等）进行合理推测，并与正确标记的示例进行验证。随着数据量的增多，系统可以得出适当的计划（ With enough data a proper plan can be derived ）。

然而，重要的是理解特斯拉并不是为特定的精确场景训练模型，而是为类似的场景进行训练（ Tesla does this for like scenarios not exact scenarios ）。它不会为某个具体的路口进行训练，而是为类似于训练数据中的路口配置场景进行训练（ It does not train the model for specific intersections but rather for intersections similar to the training data ）。选择类似场景的过程非常复杂 — 可以想象它可能会使用感知模型来识别类似的物体（例如，某个路口的配置与另一个路口的配置相似）。

和感知模型一样，一旦规划模型构建完成，它就会被转移到车辆中，在那里执行推理操作。推理将从感知过程中获得的输入数据，并输出一个 “规划” （ a plan ) 。这个规划会考虑行驶路线是什么（即到达最终目标）。

需要理解的是，“规划”（ the plan ）不过是给控制模块的指令（见下文）。规划过程可能每秒钟发生 15 次或更多次。车辆必须经常调整其规划以应对不断变化的道路动态。例如，想象车辆在 1 号车道以 60 英里的时速行驶，正开始超过 2 号车道的另一辆车。就在此时，2号车道的车辆开始向 1 号车道驶入。计划必须立即调整以避免碰撞（并且它确实会调整）。事实上，FSD 的注意力和反应时间远远超过了最优秀的人类驾驶员（没有分心，也没有犹豫）。

控制

Controls

特斯拉 FSD 的最后一个处理模块是控制模块。控制模块负责实际驾驶汽车。它操作四个关键功能：转向、加速、刹车和转向灯。指令由规划模块发送。通常这些指令可能包含优先级指示，以指定该功能是需要立即执行，还是可以在一段时间内逐步实现。例如，“刹车减速”（ brake to slow ）与 “立即刹车”（ brake now ）。控制模块管理这种平滑操作（并可能实时从IMU中获取数据以协助执行）。

控制过程很可能也是通过推理完成的。

Tesla FSD 的护城河

The Tesla FSD Moat

FSD 的版本12是端到端的AI架构（ end-2-end AI ），采用了数据驱动的Software 2.0 模式。感知和规划过程的功能逻辑是由数十亿个视频片段的数据构建起来的（ It is data that builds the functional logic of the perception and planning processes ），并且随着数据的增加，系统会不断改进。

Tesla在两个领域的护城河正在扩大：数据和数据处理（ data and data processing ）。每天大约有 5,000 辆 Tesla 车辆加入其网络，成为数据提供者。每辆车都能通过其 8 个摄像头发送视频片段，并且在 FSD 影子模式下（ FSD shadow mode ），这种数据上传可能一直在进行。

范阳注：在影子模式下，特斯拉的自动驾驶系统处于开启状态，但系统包括传感器不会采取任何主动行动，它也不会干预驾驶员的任何操作。你可以把它理解成，坐在副驾驶位不断学习驾驶技术的人工智能，收集在真实路况环境下的实时运行数据。

为了处理这些数据，训练新版本，Tesla 正在建设巨大的数据中心和计算平台。值得注意的两个项目是位于德州奥斯汀的 Tesla 超级工厂内的 Cortex超级计算机，以及位于纽约州布法罗的 Dojo 超级计算机。

Cortex 是基于 Nvidia 的 H100/H200 GPU 构建的，计划部署约 100,000 台。Cortex 的电力需求范围在 80 到 100 兆瓦之间，大约相当于 80,000 户家庭的用电量。

Tesla 还在位于布法罗的 Riverbend Gigafactory 开发其自主设计的 Dojo 超级计算机，初期建设成本预计为 5 亿美元。Dojo 是由 Tesla 从零开始设计的，核心是名为 D1 的定制硅芯片（神经处理单元 NPU）。该系统拥有定制的电气架构，旨在实现高性能的同时最大限度地减少功耗。

预计 Tesla 在 2024 年将花费 100 亿美元用于 AI 计算基础设施建设。这构成了一个非常宽广的护城河！

人类 vs 机器

Humans vs. Machines

为什么有人会认为人类比机器更擅长驾驶？事实上，人类是糟糕的驾驶员。在美国，每年有超过 40,000 人死于高速公路交通事故，其中大多数是由人为驾驶失误引起的。这相当于每两天就有一架满载的 737 飞机坠毁，所有乘客遇难。

人类处理信息的速度慢，且经常分心。分心其实就是指感知输入（例如眼睛、耳朵等）会时不时被阻断，或者大脑在忙于处理其他任务。机器则不会分心，并且可以比人类更快地处理和决策。例如，特斯拉的全自动驾驶（ FSD ）系统的规划部分可能以 15 赫兹或更高的频率运行（每秒15次以上）。

除了帮助我们规避明显危险的本能外，人类主要通过经验来学习驾驶。开车越多，我们的驾驶技术就越好。尽管新手驾驶员由于年轻通常有较快的反应速度，但由于缺乏真实驾驶经验，他们并不算安全驾驶员。像 FSD 这样基于数据驱动的自动驾驶系统也会随着时间变得更好 — 但速度要快得多。而且它们从整个车队的集体驾驶经验中学习，就像将所有司机的经验一开始就植入一个 16 岁新手驾驶员的大脑中，然后时常更新。

未来

The Future

特斯拉的全自动驾驶（FSD）系统将开启车辆自主驾驶的时代 — 汽车会变成机器人（ vehicles as robots ）。这将对交通运输和社会产生深远影响。

特斯拉在 2020 年 10 月首次推出了 FSD 的测试版本（即“FSD Beta” ）。本文所述的突破性版本12，直到 2024 年 1 月才发布。随着版本 12 的发布，进展将迅速加快。

几周后（ 2024年10月10日），特斯拉将推出其自动出租车服务（Robotaxi service）。自动出租车是基于 FSD 的特斯拉交通即服务（ TaaS ）平台。该服务包括特斯拉专为此目的设计的一种新型车辆（没有驾驶员控制装置等），以及允许现有特斯拉车主 “借出” 他们的车辆用于共享出行的服务。乍一看，它似乎是 Uber 的竞争对手 — 确实是，但远不止于此。大规模使用后，它将改变我们的出行方式；很多人将不再选择拥有汽车，而是在自动出租车生态系统中流畅地移动（ simply choosing to move around fluidly in the Robotaxi ecosystem ）。

技术革命通常开始缓慢，但一旦启动便会迅速发生（ Technology revolutions start slowly and then happen all at once ）。在达到拐点之前，许多因素必须到位。

特斯拉的突破时刻并非一夜之间发生的 — 埃隆·马斯克和他的团队已经为此奋斗了十多年。如你所读到的，数据是特斯拉端到端 AI 方法的核心（ data is essential to the end-to-end AI approach ），这本身就需要多年通过每一辆车的销售逐步积累。可扩展的计算能力（即加速计算）也是必要的。在这个过程中，为实现车辆自主驾驶的各种方法被原型化开发出来并遭遇失败，但这些失败最终导致了成功（ various methods to achieve vehicle autonomy were prototyped and failed, but these failures led to success ）。

想想 Nvidia — 曾经只是一家 “无聊” 的视频图形（ video graphics ）技术公司，如今已转型为 AI 巨头，市值接近 3 万亿美元。Nvidia 在 2016 年向OpenAI（ ChatGPT的制造商）出售了其第一个AI系统（你当时注意到了吗？）。在 2022 年秋天，Nvidia 的 CEO 预见了公司未来的方向 — 即加速计算/AI主题（你当时注意到了吗？）。当时其股票正处于疫情后的低点。到了 11 月，随着 “ChatGPT时刻” 的到来，世界开始意识到 AI 的潜力。从此 Nvidia 一路高歌猛进。

如今，特斯拉正处于它的 “2022年秋天时刻” — 它再次准备颠覆世界。未来需要时间来到达那里，但一旦到来，变化将非常迅速！

结尾的思考

Finals Thoughts

“天啊，这辆车在自己开自己，并且没人发现。”

全自动驾驶（FSD）对我来说非常真实 — 我拥有一辆 2024 款特斯拉Model 3 Performance。截至2024年9月2日，我的车已经运行FSD 12.5.1.3版本。这是自 6 月底购车以来安装的第四个版本。我现在的新车行驶了 1,900 英里，其中大约 500 英里是在使用 FSD 时完成的。我经常在各种行程中使用 FSD。当前它被称为 “人类监督下的FSD” ，因为我仍需保持注意力，但未来预计这一要求将会不需要了。

自从安装12.5版本以来，我几乎没有干预过（即需要接管控制的时刻）。每个版本的进步速度都非常惊人 — 每个更新都带来了显著的改进。我的估计是，FSD 将在 8 到 10 个月内具备完全自主驾驶的能力（无需人类监督）。

昨晚，当我和一位亲密的朋友一起开车时，我感叹道：“天啊，这辆车在自己开自己，而没人发现。” 我的意思是，周围车辆的驾驶员完全不知道，而更广泛地说，当我与那些不熟悉这项技术的人交谈时，他们对这场革命正在迅速逼近毫无察觉。

正如一些人所知道的，我密切见证了车辆自动驾驶（ vehicle autonomy ）的崛起。我曾帮助组建 Rivian 的早期技术团队，并管理了车内信息娱乐系统、云服务和移动应用等多个团队。与此讨论相关的是，我还与 Rivian 的渐进式自动驾驶团队密切合作过。

前文阅读：

什么是好的人机用户界面（ a good human interface ）？

当比尔·盖茨在 1994 年听到神经网络

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签