汽車零部件行業專题報告:AI大模型在自動駕驶中的應用

admin · 發表於 2024-4-24 17:51:47

算法是决议主動駕驶車辆感知能力的焦點要素。當前主流的主動駕驶模子框架分為感知、计劃决议计劃和履行三部門。感知模块是主動駕驶體系的眼睛，焦點使命包含對收集图象举行檢测、朋分等，是後续决议计劃层的根本，决议了全部主動駕驶模子的上限，在主動駕驶體系中相當首要。感知模块硬件部門重要為傳感器，软件為感知算法，此中算法是决议主動駕驶車辆感知能力的焦點要素。

1.1.神經收集加速主動駕驶感知算法成长，小模子向大模子迭代趋向明白

神經收集模子的利用驱動感知算法高速成长。早在上世纪 70 年月，學術院校和科研機構展開對主動駕驶技能的摸索，初期的主動駕驶感知算法主如果基于傳统计较機视觉技能，直到 2010 年以後跟着深度進修技能的成长，神經收集被引入到主動駕驶感知算法中，主動駕驶汽車的感知結果有了質的晋升。利用于感知层面的神經收集模子可以分為两類，一類因此 CNN、RNN 為代表的小模子，另外一類是 Transformer 大模子。神經收集是一種受生物神經元開导而發生的深度進修法子，由浩繁的感知機组成。感知機雷同于生物學中的神經元，输入旌旗灯号颠末加权均匀運算，若超過某一個阈值则向後通報旌旗灯号，不然被按捺。

分歧的神經收集模子现實就是對感知機之間設定分歧的逻辑瓜葛。单個感知機事情的進程為：1）感知機前端至关于神經元树突，接管输入旌旗灯号 x，可以以向量暗示 x=（a，b，c），此中 a、b、c 别离来自上一個神經元或原始图象。2）输入旌旗灯号與毗连权重向量 w=（w1，w2，w3）举行内积運算，這现實是對输入旌旗灯号举行加权均匀。3）在至关于神經元轴突的感知機後端設定一個阈值 z，當加权均匀值到达阈值即 xw T +z>0,则感知機被激活向後通報旌旗灯号，不然感知機被按捺。4）别的，引入非线性身分包管输出持续，可以對 xw T +b 总體施加一個激活函数。

1.1.1.1.深度神經收集DNN是人工智能的初步

深度神經收集（DNN）又叫多层感知機神經收集，此中有三個根基類型的层：输入层、暗藏层（或叫中心层，可以有多個）、输出层。分歧层之間的感知機全毗连，在推理時，前向（從输入层到暗藏层到输出层）通報旌旗灯号获得推理成果。在進修時则将偏差（真實值和推理值的误差）反向通報（從输出层到暗藏层到输入层），實现對感知機参数（毗连权重和阈值）的更新，直至找到使得偏差最小的一组感知機参数。在主動駕驶感知模块中输入数据為图象，而图象具备高维数（比拟時候序列凡是只是一维向量），對其辨認時必要設置大量输入神經元和多其中間层，模子参数目浩劫以練習且损耗算力高，并可能带来過拟合的問题。

1.1.1.2.卷积神經收集CNN遍及用于特性提取

DNN 辨認图象的本色是對每個像素點举行比對進修，是以效力较低。究竟上，人類在對图像举行辨認是其實不必要對像素點举行逐一比拟，而是經由過程图象的特性举行辨認。比方辨認人脸時，其實不必要對每個像素點都细心觀比對，而是先搜刮面部的轮廓和眼睛、鼻子等特性，當這些特性同時呈现，便可以果断图片中是一张人脸，基于這類思惟， CNN 卷积神經收集應運而生，本色上是在信息傳入傳统神經收集前先做一個特性的提取并举行数据降维，是以 CNN 图象處置高纬度向量的使命上加倍高效。

CNN 可以或许高效力處置图象使命的关頭在于其經由過程卷积层、池化层操作實现了降维，模子必要練習的参数目比拟于 DNN 来讲大幅低落，對硬件算力的请求也相對于低落。CNN 的模子布局在 DNN 的全毗连层以前增长了卷积层和池化层，用于提取图象特性并低落数据维度。举例而言，對付一個 8×8（64 像素）的原始图片，CNN 模子中設置一個巨细為 3×3 的滤波器（即卷积核），“笼盖”在原始图片不异巨细的區域以後，對應位置元素相乘乞降；完成一個位置计算後，向其他區域平移直到笼盖全部原始图片。

上述這一進程即“卷积”操作，此中卷积核的值為模子所必要進修的参数。卷积操作的上風在于卷积核與原始图象每區域举行運算的参数不异，低落了模子所必要進修的参数目。池化（Pooling）操作是為了提取必定區域的重要特性，并進一步削减後续输入全毗连层的参数目。如對卷积後 6×6 的特性图，選取 2×2 巨细的窗口举行 Maxpooling 操作（即窗口内取最大值）內湖抽水肥,後，特性图的长和宽都缩小到本来的 1/2。可是 CNN 依然存在必定的缺點，屡次池化會丢失一些的有價值信息，疏忽局部與总體之間的联系关系性。比方举行脸部辨認時，屡次池化位置信息有所丧失，鼻子、眼睛、嘴特性同時呈现，CNN 便可能将其辨認為人脸。是以 CNN 存在误判的几率。

1.1.1.3.轮回神經收集RNN有用處置有時候序列信息

在主動駕驶場景下，感知還必要時序的信息来完成方针跟踪和视线盲區展望等感知使命。轮回神經收集 RNN 與 CNN 同样都是傳统神經收集的扩大，比拟于 CNN 在空間长進行拓展， RNN 是在時候上的扩大，可以用于描写時候上持续输出的状况。比方主動駕驶場景中可能會呈现火线大卡車造成遮挡，若是要果断视线盲區里是不是有行人就必要连系被卡車遮挡前的信息，由此必要引入轮回神經收集 RNN 對時序信息举行處置。RNN 與 DNN 在布局上附近，區分在于 RNN 在暗藏层引入“轮回”，即每個暗藏层上的每個影象體（本色就是感知機）都與上一個時刻暗藏层上的所有影象毗连，這象征着某一時刻收集的输出除與當前時刻的输入相干，還與以前某一時刻或某几個時刻的输出相干。

引入了轮回的暗藏层叫做轮回核，RNN 借助轮回核提取時候特性，從而引入了時序上的相干性實现持续数据的展望。可是 RNN 的局限重要在于：1）轮回核必要存储，象征着硬件必要具有更大的缓存。同時影象體個数越多存储汗青状况信息的能力越强、練習結果越好，但必要練習的参数目、损耗的資源也越多，两者配合制约 RNN，使其難以學到长時候間隔的依靠瓜葛。2）RNN 并行能力受限，因為某一時刻收集的输出不单與當前時刻的输入相干，還與上一時刻的输出成果相干，是以 RNN 没法举行并行计较，使得计较效力很是受限。

1.1.2.Transformer大模子的注重力機制成為主動駕驶感知算法的利器

Transformer 模子的关頭在于计较输入序列元素之間的瓜葛权重，最先在 NLP 范畴大放异彩， 2020 年起在 CV 范畴起頭获得遍及利用。2017 年，google在 NIPS 颁發论文《Attention is all you need》提出了 Transformer 收集布局，其根基思惟為假如一個有逻辑的序列 a=(a1, a2, a3, ..., ai, ...)，如文章的文字序列、语音的声谱序列等，Transformer 模子的关键是為每一個 token（元素）找到與其他 token 的瓜葛权重。因而可知，Transformer 在處置 NLP 如许的序列使命上具备自然的上風，并敏捷成為 NLP 范畴的主流模子。2020 年，VIT （ Vision Transformer）網络把一個图片按序切成一個個小片（ Patch ）後再應用 Transformer 模子架構，標记着 Transformer 正式進军 CV 范畴，并在方针檢测、朋分等任務中均表示超卓。

Transformer 樂成的关頭在于引入注重力（attention）機制。可以對注重力（attention）機制直觀理解為“只存眷首要的信息而非全数信息”，好比當咱們视野扫過大片文字，注重力會逗留在此中的关頭词及关頭词之間的逻辑联系关系上，而對其余信息则印象不深。神經網络模子中引入注重力记着的益處在于可以解决存储時候长度有限的問题（只存眷過往信息中有效的而非全数），同時又没有首要信息的丢失。注重力機制可以經由過程運算获得一個矩阵，包括任一個元素和其他元素之間多角度的联系关系度的信息。如图所示，分歧的色彩代表分歧的维度，色彩越深代表在這個维度上两個元素联系关系度越高。举例而言，若是辨認一個未知的物體 X（木床），這個矩阵就代表在質料维度物體和木桶联系关系度最高，在外形维度和铁床联系关系度最高，經由過程神經收集練習後可以获得准确的成果。

Transformer 重要由编码器（Encoder）息争码器（Decoder）两部門構成，编码器卖力把输入数据编码成一個向量暗示，解码器则按照這個向量天生输出数据。此中编码器基于多頭自注重力機制（Multi-Head Self-Attention），解码器基于多頭交织注重力機制（MultiHead Cross-Attention）。在 Transformer 模子中，输入元素颠末三次线性變更，别离获得盘問向量 Q（Query）、键向量 K（Key）和值向量 V（Value）。這三個向量均代表了统一個输入元素，但颠末分歧的线性變更後，它們的暗示和功效都有所分歧。此中，盘問向量 Q 用于檢索與當前输入元素相干的其他元素；键向量 K 用于帮忙盘問向量找到與之相干的元素；值向量 V 用于暗示输入元素的现實信息。

输出向量可以暗示為(,, ) = ( √ )，详细的進程以下：1）计较盘問向量與键向量的點积，获得注重力得分，點积成果越大表白類似度越高，注重力得分越高。2）對注重力得分举行缩放和归一化為概率散布。3）用归一化後的注重力得分對值向量举行加权乞降，获得输出向量。自注重力機制中，Q、K、V 三個参数来自于统一個输入序列，用序列中所有元素向量的加权和来代表某一個元素的向量，是以自注重力機制可以捕获输入数据中的长間隔依靠瓜葛，經常使用于特性提取。所谓“多頭注重力機制”是一種并行计较的注重力法子，它将输入数据分成多個部分（称為“頭”），然後别离计较各部門的注重力得分。

Transformer 凭仗優异的长序列處置能力和更高的并行计较效力，2021 年由特斯拉引入自動駕驶范畴。Transformer 與 CNN 比拟最大的上風在于其泛化性更强。CNN 只能對標注過的物體举行類似度的比對，經由過程不竭進修完成對该物體辨認的使命；而 transformer 可以通過注重力层的布局找到更根基的元素與元素間之間多個维度的相干信息進而找到一種更泛化的類似纪律，進而提高主動駕驶的泛化能力。同時，分歧于 RNN 存在存储時候长度有限和次序依靠的問题，Transformer 模子具备更高的并行计较效力而且可以進修到长時候距离的依靠瓜葛。

1.2.特性级交融渐渐代替後交融，BEV+Transformer為當前主流方案

主動駕驶感知模块凡是配备多個傳感器（乃至多種傳感器）到达平安冗余和信息互补的作用，但分歧傳感器通報的信息存在互相冲突的可能性。举例而言，若是一個傳感器辨認到火线有行人请求汽車當即刹車，而另外一傳感器显示可以继续平安行驶，在這類环境下若是不合错误傳感器信息举行交融，汽車就會“感触苍茫”，進而致使不测的產生。是以，在利用多種（個）傳感器收集信息時必需举行信息交互、交融。

1.2.1.主動駕驶感知技能從後交融向特性级交融迭代趋向明白

感知可大略分為获得数据、提取特性、完成感知使命三個环節，依照信息交融產生的环節主動駕驶感知技能可以分為前交融、特性交融和後交融。後交融即方针级交融，指单個傳感器别离完成感知使命後再举行交融，可理解為有几多個傳感器即必要几套感知算法。前交融即数据级交融，指對分歧傳感器的原始数据举行空間和時候上的對齐，再從交融数据中提取特性向量举行辨認，整套主動駕驶體系仅必要一套感知算法。而特性级交融是指對傳感器收集的原始数据别离举行特性提取，再举行交融，進而實现對應的感知使命。

後交融方案因易實现、對算力请求低等上風在主動駕驶成长初期成為主流方案。後交融方案由中每一個傳感器收集原始数据後自力举行特性提取和方针檢测再由主動駕驶域節制器對举行展望成果交融。後交融方案具有三個显著的上風，1）主機厂在本身感知算法能力有限時可快速量產：後交融算法比力简略，每種傳感器的辨認成果输入到交融模块，交融模块對各傳感器在分歧場景下的辨認成果，設置分歧的置信度，终极按照交融计谋举行决议计劃。且分歧傳感器的感知算法可以交由供给商完成，比方 Mobileye 所供给的单目一體化解决方案即直接输出感知辨認的成果，由此也能够帮忙主機厂在本身感知算法能力有限時實现快速量產。

2）對算力、带宽请求低：按照呆板之心的数据，傳感器後交融的计谋對車端算力的请求仅在 100Tops 之内，同時由于傳感器與域節制器之間只必要傳输感知成果而非原始数据，對通讯带宽的请求也大大低落。3）分歧的傳感器都自力举行方针辨認，解耦性好，且各傳感器可以互為冗余备份。在行業成长的初期阶段主動駕驶品级低，對感知精度请求不高，後交融方案凭仗上述上風成為多家主動駕驶厂商的主流選擇，如特斯拉在 2020 年之前就采纳後交融方案。但跟着主動駕驶的成长，因為後交融方案精度较低（後交融進程中低置信度信息會被過滤掉，發生原始数据的丢失，而且可能偏差叠加），難以知足高档别自動駕驶的请求。同時，後交融是一種基于法则的法子，必要按照先驗常識對傳感器設定置信度，局限性较着。

前交融方案感知精度比拟于後交融大幅晋升，但對算法、車端算力请求大幅晋升。前交融經由過程空間、時候對齐直接交融分歧模态的原始傳感器数据再從交融後的综合数据中提取特征向量举行辨認。前交融方案上風较着，經由過程對原始義大利麝香葡萄酒,数据举行交融因此可以包管数据不會丢失，感知精度较高。同時傳感器無需對原始数据举行處置，本来置于傳感器内部的 SoC 芯片可以减配。但問题在于 1）必要足够優异的交融算法，原始数据数据维度高，特性繁杂，收集理解起来比力坚苦，是以對付算法的設計请求较高。2）對車端算力请求大幅晋升，需要将原始数据噪声去除，在時候、空間大将数据對齐尔後交融提取特性，這個進程必要消耗大量的算力，按照呆板之心数据，車端最少必要 500-1000Tops 才可實现前交融。

特性级交融方案比拟于後交融数据丧失小、比拟于前交融的算力损耗低，主動駕驶感知技術從後交融向特性级交融迭代趋向明白，今朝主流的方案是在 3/4D 空間中举行特性级交融。特性级交融是指在 3/4D 空間中交融跨模态数据。先從每一個傳感器供给的原始觀测数据中提代替表性的特性，再把這些特性交融成单一的特性向量進而辨認。按照呆板之心数据，前交融必要 500-1000Tops 算力，而特性级交融仅必要 300-400Tops 算力。别的 transformer 算法的成长大大晋升了在 BEV 空間举行特性交融的結果，今朝特性级交融成為主流的交融方案。

1.2.2.Transformer大幅晋升BEV空間中的特性级交融結果

BEV（Bird's Eye View）俯瞰图也能够称之為“天主视角”，是一種用于描写感知世界的坐標系，在 BEV 空間中可以举行主動駕驶感知模块的前交融、特性级交融或後交融。BEV 鸟瞰图仅是一種對感知世界的表达方法，是以其也可遍及利用在纯视觉方案、多傳感器交融方案和車路协同方案中。在 BEV 空間中举行後交融轉换重要為基于法则的法子。

傳统的 BEV 轉换法子重要基于 IPM （逆透视變更）。摄像頭所收集到的 2D 图象，因透视瓜葛的存在會显现出近大远小的环境，如真實世界中平行的車道线在 2D 透视图中會表示出不服行。IPM 就是操纵相機成像進程中的坐標系轉化瓜葛，對其道理举行抽象和简化，获得真實世界坐標系和图象坐標系之間坐標的對應瓜葛，并举行公式化描写，從而解除這類透视效應。但 IPM 法子依靠于严苛的假設，如地面是完善程度、相機和地面之間不存在相對于活動，是以任何的車辆波動或門路有高度變革城市冲破這一假如，使得 BEV 输出的图象面對失真。同時，因為透视投影，在 2D 图象中完成不错的感知成果投影到 BEV 空間中精度很差，特别是远間隔的區域。

為了降服以上問题，當前主流的方案是在 BEV 空間中基于深度進修的法子做特性级交融。详细的流程以下：BEV 感知的根基進程為：1）特性提取：傳感器收集原始数据（2D 透视图）输入到同享的主干收集（Backbone），别离提取数据特性（feature）。2）空間變更+特性级交融：在 BEV 空間内，對别离提取到的特性举行交融，包含多個摄像頭数据特性的交融和多種類傳感器的数据交融，好比将像素级的视觉数据特性和激光雷达點云特性举行交融。3）融入時序構成 4D 空間：時序信息對付主動駕驶感知使命十分首要，通過期序信息可以果断眼前的車是不是出于挪動状况而且可以持续展望。4）多使命输出：包含静态语义舆图、動态檢测和活動展望等，输出下流規控模块利用。

在 BEV 空間中做特性级交融初期的代表性算法為英伟达 2020 年提出的 LSS 算法，是基于深度散布估量举行 BEV 空間轉换的開山之作。摄像頭所收集到的 2D 透视图缺失了深度信息， LSS 算法的根基思惟是對 CNN 同享收集提取的特性图做深度估量，而且這里的深度估量其實不是一個肯定的值，而是给出一系列的几率散布，由今生成 3D 的视锥點云。最後再經由過程相機的表里参轉换到 BEV 空間中。

Transformer 交织注重力機制對付 BEV 空間轉换使命适配性较高，今朝成為特斯拉、小鹏等主動駕驶厂商主流的技能方案。與基于深度散布估量法子最显著的區分在于基于交织注重力機制的法子没有显示的深度估量，而是用注重力機制直接举行分歧序列（指 2D 特性图和 BEV 视图）之間的轉换。如前文所述，交织注重力機制中的 Query 和 Key/Value 来历分歧，是以自然适配于分歧域之間的数据轉换。在 2D 特性图向 BEV 空間轉换的進程中，起首将 BEV 空間朋分成 3D 格栅，以後将它們编码成一组 Query 向量，去 2D 特性图中盘問對應的點，從而實现空間的轉换。按照 2021 年特斯拉 AI Day，經由過程 Transformer 交织注重力機制在 BEV 空間内做特性级交融的結果远好過基于法则的法子在 BEV 空間内後交融。

2.1.都會NGP落地期近，AI大模子的利用驱動主動駕驶算法具有更强的泛化能力

主動駕驶向更高品级迈進，都會领航辅助駕驶落地期近。當前大大都主機厂實现了 L2 级别的主動駕驶，車辆可以在单一功效下實现車辆的横向和纵向節制，好比 TJA（交通拥挤辅助）、HWA（高速駕驶辅助）、APA（主動停車辅助）等，按照高工智能汽車数据，2022 年我國 L2 级辅助駕驶（含 L2+）前装標配交付 585.99 万辆，同比增加 61.66%，前装搭载率升至 29.40%。2021-2022 年海内新权势和自立主機厂旗下新設的新能源品牌陸续落地高速领航辅助駕驶，到达了 L2+级别主動駕驶，可以或许在高速（+匝道）場景下由主動駕驶體系自力完成横纵向車身節制。今朝，主機厂正渐渐從高速领航辅助駕驶向都會领航辅助駕驶拓展， 2021 年 7 月特斯拉率先在北美推送 FSD BetaV9 测试都會門路彻底主動駕驶功效，海内主機厂中小鹏、抱负、长城毫末、华為极狐等也于 2022-2023 年明白規劃推出都會場景下的领航功效。

都會場景具备高频+刚需特性，都會领航體系的成熟利用可以使得駕驶體驗具有質的晋升。根据小鹏科技日公然数据，用户在用車進程中，路子都會場景的用户数目到达 100%，路子時长及里程的浸透率到达 90%和 71%，是以都會場景具有高频特性。别的都會場景交通繁杂程度高，駕驶人注重力必要高度集中确保駕驶平安、同時交通梗塞等低落駕驶效力的环境不可防止，使得都會場景自己是駕驶人的痛點，在都會場景下實现主動駕驶具有刚需特性。

而從高速場景拓展到都會場景，象征着車辆所碰到的长尾問题（或说是 Corner case）大幅晋升。高速場景在特定路段下较為封锁，交通情况的尺度化水平高；且高速駕驶劃定對車辆的駕驶举動举行了明白的規范，交通介入者纯真不触及到行人，而且駕驶状况的可預测性更强，是以高速 NOA 成為率先落地的場景。但是，都會場景下門路及路况繁杂（红绿灯路口）、交通介入者多（行人、低速两轮車）、場景异質性强（分歧都會乃至分歧路段路况差别性大），主動駕驶碰到的 Corner case 大幅晋升。是以，都會领航辅助駕驶的落地需求對主動駕驶模子的泛化能力提出更高的请求，同時斟酌到贸易化落地的本钱束缚，咱們認為，利用 AI 大模子提高泛化能力+低落/節制車端硬件本钱是主動駕驶算法蜕變的焦點脉络。

2.2.從特斯拉感知算法迭代進程看AI大模子對都會NGP的赋能標的目的

简略复盘特斯拉算法迭代進程：1）2018 年以前：後交融计谋，在每一個视角下處置多個 task，将单個图片檢测获得的成果再举行交融。3）2020-2021：多個摄像頭输入多個 image，别离颠末多個骨干收集，抽取每一個 image 特性，颠末 BEVtransformer 轉换，特性投影到 BEV 视角，再完成不少個 task，實现特性级觀點的交融。4）2022：從 BEV 進级到占用收集，到达“伪激光雷达”的結果。总結来看，特斯拉從“第一原则性”角度動身，對峙纯视觉方案。

從特斯拉算法迭代標的目的来看，寻求泛化，經由過程视觉的方案刻劃真正的物理世界。 2020 年 8 月马斯克公布推特称特斯拉正在重構主動駕驶底层算法，2021 年 7 月特斯拉正式推送 FSD Beta V9.0，通太重写感知算法讓特斯拉只要用纯视觉便可以實现都會级此外彻底主動駕驶；2022 年 11 月特斯拉起頭推送 FSD Beta V11 版本，進一步晋升占用收集算法，在近間隔停滞物召回和卑劣气候前提下的精度，Transformer 空間辨别率提高了 4 倍。

2.2.1.第一阶段：BEV+transformer，實现“脱高精度舆图”

高精舆图可以或许供给超视距、厘米级相對于定位及导航信息，在数据和算法還没有成熟到脱图之前，特别针對海内的繁杂路况，其對主機厂實现高阶主動駕驶功效具备首要意义，现阶段海内主機厂實现都會领航辅助駕驶落地的重要基于高精度舆图+单車感知的方案。但高精度舆图方案缺點较為凸起，在主動駕驶感知算法成熟以後，“脱高精度舆图”趋向明白。高精度舆图的出產流程，起首必要搭载高精度傳感器的数据收集車举行数据收集，以後将收集的點云数据用 SLAM 算法拼接配准後，標注員把所有的舆图中元素標注出来，這一流程與自動駕驶感知進程具备類似的地方。

在利用進程中最為凸起的三個問题為：1）没法做到施行更新；2）律例危害；3）高本钱。難以施行更新：高精舆图数据范围庞大，致使制图和更新都花费较长時候。据统计高精地图中對付单条門路的收集必要 14 亿個数据點；仅以静态舆图层為例，Waymo 单日数据收集量到达 1TB 也仅笼盖约 8h 車程。图商在采纳專用收集車更新 1 次天下高速公路和都會快速路的高精度舆图的频率约為 3 個月，經由過程（出租車）眾包方法更新频率也仅能晋升至月度频率。但是，門路情况的變革是及時產生的，不克不及做到施行更新的高精度舆图靠得住性大幅降低。

主動駕驶感知算法向 BEV+transformer 架構進级，助力都會领航辅助駕驶脱高精度舆图。主動駕驶車辆經由過程相機拍到的是透视视图，即 3D 世界在 2D 世界的投影，而且處于分歧安装位置的相機供给的是分歧视角下的投影，但是所有主動駕驶的决议计劃和路径计劃都是在車辆地點的 3D 世界下举行的，如许的维度不匹配就使得基于感知成果直接举行主動駕驶變得异样坚苦。以人類駕驶举例而言，新手學倒車時難以操纵後视镜察看到的場景與車子與周围情况的 3D 空間接洽，即缺少從倒视镜图象平面到自車坐標系空間轉换的空間理解，是以新手靠倒車镜很輕易產生误操作造成剐蹭。2021 年特斯拉 AI Day 中提出 BEV 俯瞰图感知技術就是為领會决這一問题。BEV 俯瞰图可以理解為在車辆正上方 10-20 米的位置有一個直升機俯视車辆及四周情况的视角，從输入的分歧视角的图片到 BEV 俯瞰图本色上就是一個坐標系的變革。

同時特斯拉 BEV 感知模子為特性级交融，极大的提高了模子在极度气候工况下的應答能力。在後交融中，由摄像頭中的视频芯片果断收集数据是不是及格并举行處置，再傳到主動駕驶域節制器中，這里必要注重的時，摄像頭中芯片果断收集数据是不是及格的尺度本色上是人的尺度。在後交融模子下，若是碰到极限雨雪天极限气候工况，摄像頭收集到的数据/视频流清楚度大幅降低，很難到达摄像頭果断及格的尺度，是以通報给後端做计劃節制的成果大幅降低。與後交融模子分歧，從分歧视角的摄像頭收集到的图片轉换到 BEV 视角的進程中是特性级的交融，好比在极度气候工况下有一些光子信息仍然反响了火线停滞物的环境可以用于後续的计劃節制，在特性级交融的框架下感知模子對数据的操纵率较着晋升。

BEV 俯瞰图至关于主動駕驶車辆施行天生“活舆图”，因此可以實现去高精度舆图化。比拟于导航舆图，高精度舆图可以或许供给更多的門路拓扑信息，好比红绿灯、車道线、斑马线、坡度、曲率、車道数的切确信息，而导航舆图會具备 10-20 米的偏差。BEV 模子經由過程将分歧视角的摄像頭收集到的图片同一轉换到天主视角，至关于車辆施行天生活舆图，补足了自動駕驶後续决议计劃所必要的門路拓扑信息，因此可以實现去高精度舆图化。

一方面高精度舆图方案在都會場景下缺點较着，同時特斯拉 BEV+Transformer 方案為行業 “脱图”供给了技能上的可行性，咱們認為“輕舆图，重感知”将成為行業成长的主流方向，小鹏等海内主動駕驶厂商均提出“脱图”時候表。在小鹏 1024 科技日中，卖力人吴新宙屡次夸大将来 G9 搭载的 XNGP 主動駕驶體系将無需依靠高精舆图，實现都會、高速和地下泊車場的全場景利用，其重要的思绪是在原有硬件根本上，推出新的视觉感知架構 XNet。其操纵多相機多帧和雷达傳感器数据的交融算法，直接输出 BEV 视角下交通介入者的静态和動态信息（状况、速率、举動展望等），具有及時天生高精舆图的能力。與特斯拉分歧，小鹏仍保存了激光雷达傳感器供给感知冗余，估计将引领主機厂實现脱图技能上的冲破，拓宽全場景领航駕驶的利用都會。

2.2.2.第二阶段：進级到占用收集，實现“脱激光雷达”

從 BEV 進级到占用收集，進一步晋升泛化能力。特斯拉在 2022 年 AI Day 中展示了 Occupancy Network 感知技能。根基的思惟是将三维空間劃分成體素 voxel（可以理解為微小立方體），再去展望每一個 voxel 是被占用仍是余暇，經由過程 0/1 赋值對 voxel 举行二分類：有物體的 voxel 赋值為 1，暗示 voxel 被物體盘踞；没有物體的 voxel 被赋值為 0。现實中的赋值可所以几率值，暗示 voxel 存在物體的几率。

占用收集感知技能本色上是為领會决更多的长尾問题。纯视觉方案被質疑的一大問题在于對付没有在練習集中呈现過的物體，视觉體系则没法辨認，好比侧翻的白色大卡車，垃圾桶呈现的路中，傳统视觉算法没法檢测到。占用收集模子的根基思惟是“不斟酌這個物體究竟是甚麼，只斟酌體素是不是被占用”，则從底子上防止了這一問题，大幅晋升了模子的泛化能力。從特斯拉 AI Day 演示結果来看，特斯拉經由過程體积俯瞰图、占用檢测和體素分類使纯视觉方案已到达“伪激光雷达”結果。

增配 4D 毫米波雷达，進一步包管平安性，完全代替激光雷达。特斯拉 HW4.0 預留 4D 毫米波雷达接口，或将重启毫米波雷达，补充纯视觉算法不足。對付纯视觉算法而言现實是缺乏高度信息，3D 信息寄托“近大远小”来估算，若是说火线門路上有一张画着立體卡車的画，视觉算法難以果断這是一张画仍是真的有一辆車，而 4D 毫米波雷达能很好的解决這一問题。從成原本看，4D 毫米波雷达代價低于高线束激光雷达。按照焉知汽車数据，MEMS 激光雷达代價大要在 3000-9000 元不等，同時按照高工智能汽車数据，4D 毫米波雷达售價為 1000-2000 元。

2.2.3.第三阶段：從感知到决议计劃節制端到真個主動駕驶模子有望成為将来成长標的目的

在當前主動駕驶模子架構中将駕驶方针劃分為感知、计劃、節制三個大的模块，而端到端则冲破模块之間的劃分，直接输出终极的成果。现有的模子思绪是感知模块输出 BEV 俯瞰图（或 Occupancy）的成果，计劃和節制模块再根据 BEV 俯瞰图成果举行@展%JcEO9%望和履%54GlU%行@。而在端到端（end-to-end）模子中，输入数据是摄像頭收集的到的视频流 raw-data，输出数据直接是如標的目的盘轉角几多度的節制决议计劃。端到真個思绪更雷同于人的駕驶進程，人的駕驶决议计劃常常基于@履%MBk妹妹%历@，司機駕驶車辆時其實不會决心對基于视觉/眼睛供给的信息举行阐發，即不會去果断我看到了甚麼，也不會對看到的物體和状况做阐發，駕驶員固有的“@履%MBk妹妹%历@” 所活泼的脑質皮层在一種“黑盒”的状况下，完成駕驶决议计劃，并和谐耳眼四肢举動，配合完成駕驶使命。

AI 技能将“場景-駕驶举動”的映照變化為“場景-車辆節制”的“端到端”式映照。深度强化進修（DRL）连系了深度進修算法的“感知能力”和强化進修算法的“决议计劃能力”，為繁杂駕驶場景的感知决议计劃問题供给解决方案。此中，深度進修卖力繁杂駕驶場景的感知和特性提取犹如人類的眼睛；强化進修部門經由過程马尔可夫决议计劃進程完成推理、果断和决议计劃如同人脑。DRL 的道理框架是一種是端到端感知和决议计劃節制體系。

今朝部門主動駕驶介入者對付特定的功效已可以實现端到端。如 2016 年英伟达颁發的论文 End to End Learning for Self-Driving Cars 中先容了實现車道连結功效的端到端模子。 CNN 深度神經收集在對付视觉信息處置以後（經由過程卷积层），會經由過程全毗连层给出一個基于之前進修@履%MBk妹妹%历@得出的標的目的盘角度（Steering co妹妹and），而此時现在真正的人類操作也将被引入與 CNN 的输出举行比拟。比拟的成果/误差被送回 CNN 收集去改正阿谁黑盒状况下的全毗连层参数。這里必要出格注重的是，在全部端到端模子中，不存在零丁的“图象辨認檢测”使命。

端到端理论上可以更大水平的提高模子的泛化能力，有望成為主動駕驶模子進一步成长的趋向。咱們比拟當前 Occupancy 的输出成果和人駕驶時做果断的根据，可以發明 Occupancy 仍然具备信息的丧失。举例而言，人在駕驶車辆時可以参考行人的姿式等来辅助决议计劃，然而在现有感知模子输出 Occupancy 成果则丢失了這一信息。是以，比拟于现有的感知、决策、归控區别模块的主動駕驶模子成果，端到端模子做出决议计劃的根据信息量更大，模子自身的自由度也更大，因此具有更壮大的泛化能力。

3.1.前提一：具有至关数目的里程数据，因此主動標注+仿真平台环節将尤其首要

Transformer 大模子量變引發質變必要 1 亿千米的里程数据。比拟于 CNN 小模子来讲， Transformer 必要更大量的数据来練習模子。按照毫末智行 CEO 顾潍颢在毫末 AI DAY 上表示，練習出一個能输出高精度和正确度的主動駕驶大模子，主動駕驶测试里程数据需最少到达擦窗器, 1 亿千米。同時，練習 Transformer 大模子比拟于 CNN 小模子来治療皮炎濕疹,讲所请求的数据颗粒度分歧（如傳感器設置装备摆設、精度分歧），是以在小模子期間所堆集的数据存在部門没法用于大模子的練習。對付主動駕驶厂商而言，所堆集的数据量、對数据的處置极大的影响主動駕驶模子的迭代速率。

主動駕驶練習所必要的真實数据来历重要包含收集車数据和眾包数据。主動駕驶厂商具备專業的测试車队，搭载高機能的傳感器用于收集真實場景的数据，這里必要注重的是，即便對付特斯拉如许纯视觉线路的厂商，收集車凡是也搭载有激光雷达，用于测试中的真值校驗。除此以外，對付有量產車的主機厂而言，可以經由過程“眾包收集”的方法敏捷采集数据。如特斯拉開創的“影子模式”，在有人駕驶状况下，體系包含傳感器依然運行但其實不参與車辆節制，只是對决议计劃算法举行驗證——體系的算法在“影子模式”下做延续摹拟决议计劃，而且把决议计劃與駕驶員的举動举行比拟，一旦二者纷歧致，该場景便被断定為“极度工况”，進而触發数据回傳。

此中，傳感器收集获得的 raw-data 需举行標注後才可用于算法模子練習，主動標注东西可大幅晋升数据處置速率。2018 年至今，特斯拉数据標注履历了 4 個成长阶段：1）第 1 日本護手霜,阶段 (2018 年以前)：只有纯人工的 2 维的图象標注，效力较低；2）第 2 阶段(2019)：人工举行 3D 固定框的图象標注；3）第 3 阶段(2020)：采纳 BEV 空間举行標注；4）第 4 阶段(2021)：起首對場景举行重修後在 4D 空間中举行標注，精度、效力都获得大幅晋升。特斯拉主動標注體系可以代替 500 万小時的人工功课量，人工仅必要查抄补漏。

海内厂商中小鹏、毫末智行等亦接踵推出主動標注东西，在低落人工本钱的同時，效力得到显著晋升。按照小鹏科技日資料，小鹏推出的全主動標注體系将效力晋升近 45,000 倍，之前 2,000 人年的標注量，如今 16.7 天可以完成。毫末智行在 AI Day 中暗示毫末基于视觉自@监%2jiDp%视大模%d4tRs%子@，實现 4D Clip 的 100%主動標注，本来寄托的人工標注本钱则低落 98%。

今朝仿真場景重要由遊戲引擎天生，基于根本的實際世界数据包管仿真場景與真實場景之間的類似度，并寄托交通要素間的從新组合提高泛化能力。以特斯拉 Simulation World Creator 為例，1）由經主動標注的真實場景数据中提取断绝带鸿沟、車道线、門路毗连信息等来天生路面網格并举行車道线等衬着；2）植物經由過程丰硕的素材库在路間和路旁随機生成植物衡宇等来摹拟真實世界中這些物體引發的遮挡效應；3）由导航舆图供给旌旗灯号灯、路牌等其他門路元素；4）参加車辆和行人等動态元素。在這一進程中，經由過程門路街景随機生成和車道链接瓜葛的随機天生提高了模子的泛化能力。

英伟达主動駕驶仿真平台 DRIVE Sim 經由過程 Replicator 合成数据东西来缩小仿真数据與真實数据之間差别并提高場景泛化能力。英伟达 DRIVE Sim 中的 DRIVE Replicator 供给了一個天生各類合成数据集，并具有真值標签的平台，其重要特色有如下两點：1）DRIVE Sim 對傳感器输出数据的摹拟更切近真實环境，經由過程 RTX 光芒追踪技能可以摹拟傳感器在真什物理情况下屡次反射、多路径效應、轉動快門和镜頭失真等問题；2）域随機化，通例的仿真平台随機產生器仅對仿真情况中的工具、举動举行随機，而 DRIVE Sim 還具备 3D 場景外觀及光照环境举行随機化的能力，如可以對路面湿润水平、太陽方位角及高度角等方面举行更改来加强場景的泛化能力。

天生式 AI 有望鞭策仿真場景大幅晋升泛化能力，帮忙主機厂晋升仿真場景数据的利用比例，從而提高主動駕驶模子的迭代速率、收缩開辟周期。當前仿真場景對现實路测中所碰到的邊沿案例重要經由過程人工举行泛化，如量產車在影子模式下碰到某一個 corner case 并举行数据回傳後，在虚拟引擎中举行場景重修，再經由過程報酬添加要素，如增加雨雾情况、增长交通介入人数等方法對原始場景举行梯度泛化。但對場景的泛化能力依靠于工程師對付場景的理解，且存在經過手動添加元素後的場景與真實場景的拟合度不高的問题。天生式 AI 有望在针對真實場景中的 corner case 举行場景泛化的進程中代替人工，可以敏捷泛化出大量的、與真實世界高拟合度的虚拟場景，進而提高主動駕驶模子的迭代速率。

3.2.前提二：具有至关算力的云端練習平台，因此超算中間将成為主機厂需要根本举措措施

主動駕驶 Transformer 大模子利用對算力的需求来自于两個方面，别离是云端算力和車端算力。云端算力需求體@如%G5f9h%今大模%d4tRs%子@的預練習环節，可以理解為寻觅模子参数值的進程，同時仿真测试中的場景衬着和搭建也對算力提出较高请求，上述進程均请求海量的算力需求而且凡是是集中練習。車端算力用于量產車上主動駕驶模子推理的進程，可以理解為将訓練好的主動駕驶模子摆設在車端，输入主動駕驶汽車及時收集的图象输入到練習好的模子中，根据模子参数算出成果的進程。毫末 CEO 顾潍颢在毫末 AI Day 中暗示，基于 Attention 的大模子會将大量的“存眷”放在弱联系关系（與所求成果联系关系度不高的参数）運算上，致使 Transformer 所需算力是 CNN 所需算力的 100 倍。

超算中間初始投入高，小鹏主動駕驶根本举措措施扶植海内领先。按照 IDC 数据，主機厂及一级供给商對搭建人工智能计较中間的預算廣泛跨越 1 亿人民币，跨越 2 亿人民币投入的主機厂占比跨越 20%；從超算中間的摆設周期来看，凡是必要 3 個月摆布的時候。小鹏是海内最早結構超算中間的整車厂。2022 年 8 月小鹏汽車建立主動駕驶 AI 智算中間“扶摇”，由小鹏和阿里結合出資打造。据小鹏汽車 CEO 何小鹏先容，该中間具有 60 亿亿次浮點運算能力（60000TFLOPs），可将主動駕驶算法的模子練習時候提速 170 倍，而且将来還具有 10~100 倍的算力晋升空間。

（本文仅供参考，不代表咱們的任何投資建议。如需利用相干信息，请参阅陈述原文。）

		自動登錄	找回密碼
密碼			立即註冊