大模型上车，特斯拉带了个好头吗？

2023.10.13

原文来源：解码Decode

图片来源：由无界 AI生成

1989年，卡内基梅隆大学接到了美国军方的一个研究课题，内容是当时看起来不可思议的自动驾驶。

为此，研究人员给一辆翻新的军用急救车，装上了一个看起来像探照灯的硕大摄像头，还配备了一台冰箱大小的处理器和一部5000W的发电机。

尽管设备简陋、数据粗糙，比如据媒体报道当时车顶的摄像头只能输入30×32像素网格，但借助开创性的神经网络，这辆名为ALVINN的自动驾驶汽车最高速度能达到88km/h。

ALVINN被誉为自动驾驶领域一个里程碑项目。其最深刻的影响，正是用神经网络替代人工代码，成为后来自动驾驶技术发展的一座灯塔。

此后数十年，自动驾驶技术沿着ALVINN的方向飞速发展，直到chatGPT问世，大模型走上舞台，成为改变自动驾驶最大的一个变量。

在车端，大模型已经作用于自动驾驶的感知和预测环节，正在向决策层渗透；在云端，大模型为L3及以上自动驾驶落地铺平了道路；甚至，大模型还将加速城市NOA落地。

而全球的下游企业中，特斯拉毫无疑问是跑在最前面的少数。

今年8月特斯拉端到端AI自动驾驶系统FSD Beta V12版本的公开亮相，据称可以完全依靠车载摄像头和神经网络，识别道路和交通情况并做出相应的决策。

这种端到端模型的感知决策一体化，让自动驾驶直接从一端输入图像数据，一端输出操作控制，更接近人类的真实驾驶。

但车企们努力接近端到端模型时才发现，想要超越必须先跟随。

1 算法优先

让大模型上车，特斯拉绝对是最激进的一个。

早在2015年，特斯拉就开始布局自动驾驶软硬件自研，2016-2019年陆续实现了算法和芯片自研。随后在2020年，特斯拉自动驾驶又迎来大规模升级：

不仅用FSD Beta替换了Mobileye的Autopilot 3.0，还将算法由原来的2D+CNN升级为BEV+Transform。

Transformer就是GPT中的T，是一种深度学习神经网络，优势是可实现全局理解的特征提取，增强模型稳定性和泛化能力。

BEV全称是Bird’s Eye View(鸟瞰视角），是一种将三维环境信息投影到二维平面的方法，以俯视视角展示环境当中的物体和地形。

与传统小模型相比，BEV+Transformer对智能驾驶的感知和泛化能力进行了提升，有助于缓解智能驾驶的长尾问题：

1）感知能力：BEV统一视角，将激光雷达、雷达和相机等多模态数据融合至同一平面上，可以提供全局视角并消除数据之间的遮挡和重叠问题，提高物体检测和跟踪的精度；

2）泛化能力：Transformer模型通过自注意力机制，可实现全局理解的特征提取，有利于寻找事物本身的内在关系，使智能驾驶学会总结归纳而不是机械式学习。

2022年特斯拉又在算法中引入时序网络，并将BEV升级为占用网络(OccupancyNetwork)，有效解决了从三维到二维过程中的信息损失问题。

从感知算法的推进来看，行业总体2022年及之前的的商业化应用主要为2D+CNN算法。随着ChatGPT等AI大模型的兴起，算法已经升级至BEV+Transformer。

时间上特斯拉有领先优势（2020年），国内小鹏、华为、理想等均是今年才切换至BEV+Transformer。

但不论是特斯拉还是国内主机厂，BEV+Transformer都仍只应用于感知端。

虽然学术界以最终规划为目标，提出感知决策一体化的智能驾驶通用大模型UniAD+全栈Transformer模型，不过受限于算法复杂性+大算力要求，目标落地尚无准确时间表。

2 算力竞赛

2016年，因辅助驾驶致死事故和Mobileye分道扬镳的特斯拉，找到英伟达定制了算力为24TOPS的计算平台 Drive PX2，由此开启了车企疯狂追求算力的神奇序幕。

继Drive PX2之后，英伟达在6年时间内发布了三代智能驾驶芯片，从Xavier、Orin再到Thor，算力从30TOPS一跃升到2000TOPS，足足增长了83倍，比摩尔定律还要快。

上游如此“丧心病狂”的堆算力，归根结底还是因为下游有人买单。

一方面，随着智能汽车上的传感器规格和数量提升，带来数据层面的暴涨。

以特斯拉Model Y和小鹏 G6 Max为例，后者因配置了更多传感器，所需算力达到了前者的3.5倍。

当一辆自动驾驶车辆每天可以产生数TB，甚至数十TB数据，数据处理能力即为自动驾驶技术验证的关键点之一。

另一方面，“大模型化”也让智能驾驶算法的芯片算力愈发吃紧。

相关推荐