百度無人駕驶技術硬核解读!清华博导分析4大關键突破

admin · 發表於 2024-8-21 17:16:16

裁人、停業案例频發，L4主動駕驶要不可了？運動彩,

海内最先举行主動駕驶技能財產化測验考试、具有最壮大主動駕驶l團队和全世界最大范围利用落地的baidu站出来了，高声说了一句：NO！

就在本周二，baidu举辦了ApolloDay技能開放日勾當。固然受疫情影响改成了線上举辦，但baiduApollo却破天荒地一次性摆出来六位高档專家，對此次勾當的器重水平极高。

感知、决议计劃、舆图、数据、芯片等范畴的六位技能專家前後登台，具體向外界先容了baidu的主動駕驶范畴获得的最新技能希望，触及文心大模子的利用、進修型决议计劃體系、轻量化高精舆图技能的冲破，和新的数据闭環架谈判云端AI芯片。

這些范畴加起来就是主動駕驶體系的最焦點部門，這也象征着baidu是想奉告外界：本身在主動駕驶的各個關頭情况都實現了新的技能冲破，離無人駕驶的大范围商用只有咫尺之遥了！是以，baidu在勾當現場也颁布發表将在2023年打造全世界最大的全無人主動駕驶贸易運营區。

那末baidu本次展現的技能到底能解决哪些現實問题，在業界属於甚麼程度？又是不是真的像baidu所言那样，到了能鞭策無人駕驶范围商用的境界了呢？

為了答复這些問题，車工具约请到了一名硬核專家——清华大學交織信息鑽研院助理傳授，博士生导師赵行博士举行解读。

▲清华大學交織信息鑽研院助理傳授，博士生导師赵行博士

赵行傳授深耕主動駕驶范畴多年。

早在2015年於MIT麻省理工學院念書時代就结合開辟了第一門主動駕驶课程，後被推行到全球十余所高校举行利用讲授。其在MIT攻读博士學位時代師從AI+决议计劃系主任Antonio Torralba傳授，重要鑽研標的目的為计较機視觉，多模态和多傳感器的呆板進修。

2019年博士结業後，赵行参加全世界主動駕驶范畴的领頭羊Waymo担當鑽研科學家，提出了主動駕驶举動展望中一系列框架型的事情，為行業大大都公司所@利%M4B28%用或鉴%Q2GLd%戒@。其本人也入選2020年福布斯中國U30科學精英榜。

赵行於2021年回國，参加清华大學担當助理傳授，鑽研范畴涵盖主動駕驶的全部算法栈，和多模态和多傳感器的呆板進修。在國際頂级期刊和集會颁發論文总计40余篇，Google Scholar援用总计9000余次。鑽研事情曾被BBC，NBC，麻省理工科技评論等多家主流科技媒體報导。

他在清华大學组建和引导MARS Lab课题组，重要鑽研樂趣為主動駕驶，多模态進修和计较機視觉。提出了“以視觉為中間的主動駕驶VCAD”方案，被業界遍及采用并落地利用。

如下為赵行傳授對baiduApollo Day上多項亮點技能的深刻解读。

近日，baiduApollo Day请来了主動駕驶各個板块的賣力人，给大師讲授了baidu在開辟主動駕驶進程中的法子和思虑。我拔取了几個開放日中几個成心思的技能點来给大師做進一步的解读。

一、感知-文心大模子

二、高精度舆图

三、展望决议计劃一體化

四、数据闭環

01

引入文心大模子

進一步晋升感知能力

此次開放日最大的亮點之一属於感知，感知方面有两個關頭词，第一個關頭词是早洩,多模态，第二個關頭词是大模子。

起首，王井东先容了baidu的多傳感器交融和分工方案，以下图所示。总體的思绪是依照感知間隔举行模子劃分：對付远間隔物體，利用相機举行感知；對付中間隔物體，采纳近来最風行的BEV方案举行多傳感器交融感知；對付近間隔物體，采纳鱼眼相機的BEV方案举行补盲。

對付BEV多模态交融的法子，近来两年出現出不少方案，列位同窗可以浏览論文BEVFusion[1]，FUTR3D[2]，我在此不開展先容。

▲按照間隔举行感知模子劃分

對付多傳感器交融的结果，王井东展現了一個成心思的例子。在點云图中，咱們轻易误辨認洒水車的洒出的水是車辆；在多模态交融後，咱們可以很好地防止如许的误檢測。

▲多傳感器交融辨認洒水車的水露

接下来咱們看大模子。大模子是AI學界最热的關頭词，@那%b839U%末大模%73l25%子@可以解决主動駕驶中的甚麼問题呢？重要有两方面：1. 远間隔檢測；2.长尾物體辨認。baidu采纳了两種大模子技能，别離解决這两個坚苦。前者聚焦几何，後者聚焦语义，各有千秋，下面咱們来别離會商。

▲感知大模子的自練習方案

一、“文心大模子-感知大模子”。

感知大模子重要用於晋升3D感知能力，模子大了，请求的練習数据天然多，但是3D感知数据的標注很是昂贵，且主動駕驶中收集的大大都数据都是無標签的。因而咱們面對的問题就酿成了：若何操纵小量有標签数据和大量無標签数据来練習感知模子？在呆板進修中，這是尺度的半监視進修問题，有两套解决思绪：

a、無监視预練習+微调。即操纵比拟進修（如SimCLR, SimSiam），掩码展望（如BeiT，MAE）等法子预練習，然後操纵参数作為初始化，在下流感知使命长進行微调。

b、自練習，這是baidu選擇的法子，可以同時利用有標签和無標签的数据来進修。详细来讲，先利用有標签数据對模子举行初始启動練習，然後将模子在無標签数据长進行推理获得伪標签，最後归并有標签数据和伪標签数据對模子举行進一步練習。如斯来去，举行多轮迭代。

在練習完感知大模子今後，baidu操纵常识蒸馏的法子将伪標签用於車载小模子的坐骨神經痛治療,進修，從而加强車载小模子的远間隔感知能力。

baidu選擇自練習的缘由，我信赖是在現實利用中，這類自練習的范式能获得更好的下流使命表示。在一些論文里，咱們也能找到這方面的證据，感樂趣的同窗可以浏览論文Rethinking pre-training and self-training[3]获得更多细節。

▲图文大模子用於长尾数据發掘

二、“文心大模子-图文弱监視预練習模子”。

前一個感知大模子的用場主如果提高3D感知能力，而這個图文大模子重要用来在云端做长尾数据發掘，存眷语义层面的理解能力。图文弱@监%691j6%視大模%73l25%子@包括一個文本编码器和一個图象编码器，在海量的（2D图片，文字）對上經由過程比拟進修获得，這個標的目的最經典的鑽研事情就是CLIP[4]。在練習完图文大模子今後，长尾物體發掘的流程以下：

a、對付一個巨大的主動駕驶数据集，利用一個高召回率的物體檢測器，檢測所有多是物體的框，這里利用的是Group DETR v2[5]；

b、操纵图文弱@监%691j6%視大模%73l25%子@練習出来的图象编码器，對每一個物體编码，获得物體的特性向量；

c、在發掘時，可使用（i）文本举行图象發掘；（ii）图象举行類似图象的發掘。下图中展現了@很%5B9Md%多大模%73l25%子@可以發掘出的成心思的物體種别，如塑料袋，消防車/救护車，轮椅，動物等等。

d、可以選擇性地對發掘出来的图文對举行挑選，放入練習集@举%361xA%行大模%73l25%子@的進一步晋升。

▲数据發掘结果示例

大模子在AI范畴近来有不少鑽研功效，很多主動駕驶公司也宣称在摸索。baiduApollo應當是首個公然具體展現技能道理和亮點的主動駕驶l團队，這在行業里算是一次首要的測验考试。而baidu@利%PjvEl%用大模%73l25%子@的两種思绪，明显也會给其他l團队供给指引和参考，估计此後在主動駕驶行業中會出現出更多大模子的研發和利用。

02

高精舆图再進化

引入人類駕驶履历

高精度舆图是主動駕驶范畴的另外一個热點话题。baidu是同時具备主動駕驶营業和画图天資的公司，是以是高精度舆图的支撑者和開辟者。在黄際洲讲授的L4舆图和王亮讲授的L2+舆图中都有提到，baidu對付傳统高精度舆图建图存在的一些焦點挑战，提出了一系列的解决方案：

一、高精度舆图構建本錢昂扬怎样解决？用AI技能低本錢、高效力主動化出產高精度舆图，主動化率到达96%。

二、門路布局產生變革怎样解决？交融車真個及時感知舆图和高精舆图，输出终极交融後的舆图成果，解决舆图和實際纷歧致的問题。

對付當下比力火的無高精度舆图（及時舆图感知）方案，baidu给出了如下比拟，而且暗示這類低本錢、交融的舆图方案，可以更好地包管主動駕驶的平安性。

▲無高精度舆图方案和Apollo自研的“轻量”高精舆图比拟

咱們注重到另外一個有怪异的觀點是baidu提出的駕驶常识图谱。

駕驶常识图谱包括了一些人類駕驶的一些履历性常识，比方出匝道時不该该立即减速，而應當迟钝减速包管恬静和平安。駕驶常识图谱的構建基於baidu舆图采集的数亿人類司機駕驶習氣，包含履历速率、變道機會等，從而帮忙無人車做到更好的计劃節制。

從技能角度来看，有高精舆图的加持，會讓主動駕驶汽車具有更好的駕驶表示。同時有主動駕驶和高精舆图营業的baidu此次在技能上的冲破值得存眷。

03

PNC融入深度進修

展望决议计劃结合建模

基於進修的规控體系（PNC）是業界大師廣泛存眷的問题，不少人會開打趣说，業界的规控代码就是一些if-else的堆砌。實在如许的比方其實不浮夸。PNC一般包含了展望、决议计劃、轨迹计劃和節制四個部門，展望、决议计劃和轨迹计劃都是很是坚苦的問题。

經典的展望法子是基於舆图法則和動力學模子的。曩昔几年，轨迹展望模块逐步引入了一系列深度進修的方案如TNT、SceneTransformer，都使得展望能力显著晋升。

經典的决议计劃方案會按照場景举行拆分，比方高速、路口、環島，然後按照每種場景下的車辆状况举行法則拆分，比方匀速、减速、變道、加塞。如许咱們就有了一個繁杂的有限状况機，状况機的節點是举動决议计劃，邊是状况變革的前提。

若何拆分是每一扶芳茶,個公司本身堆集的“技術”，若是拆分的好，全部图的布局會比力清楚，若是拆分的欠好，常常跟着體系更新、计谋分叉，酿成一個法則补钉體系。更坚苦的是，跟着駕驶都會的扩大，分歧都會的一样場景可能有差别，必要分歧决议计劃，终极致使决议计劃分叉爆炸，難以保护。

經典的轨迹计劃方案凡是先按照可行區域举行路径搜刮，然後對获得的大略轨迹举行優化，求解出一条平安和可行的時空轨迹。

baidu的進修型PNC方案是将展望和决议计劃两個模块结合建模，然後送入到轨迹计劃和節制模块中。详细来讲：

一、先提取場景里自車特性，情况車辆的特性，舆图的特性，利用一個Scene Transformer来交融特性；

二、输出两個分支，一個分支输出情况車的决议计劃和轨迹；

三、另外一個分支输出自車计劃的轨迹初始值（trajectory seeds）；

四、将轨迹初始值输入到轨迹计劃模块，举行進一步的搜刮和優化，获得终极的轨迹。

以上的方案是一個比力端到真個法子，搭建端到真個模子其實不是最坚苦的，更難的問题是，在没有法則束缚下（如“红灯停绿灯行”），若何包管模子的输出决议计劃的公道性呢？baidu给出的谜底是，操纵履历體系来初始化决议计劃模子，讓模子的表示靠近法則體系，然後讓模子操纵真實数据举行迭代，逐步超出履历體系。别的，因為轨迹计劃模块的存在，依然可以兜底确保最後轨迹的平安性。

▲展望@决%R8S26%议%R8S26%计%R8S26%劃大模%73l25%子@布局

進修型的PNC模块是主動駕驶學術和財產的技能前沿。學術界固然提出了很多鑽研功效，但在財產界實在利用的案例其實不丰硕，乃至可以说只是在測验考试阶段。baidu這次提出的展望决议计劃一體化模子，在底层設計上實現的立异，是行業在實現PNC范式變化上迈出的首要一步。

04

数据質量比范围首要

立异方法實現数据闭環

我感觉本次技能日的另外一大亮點是数据闭環。跟着路測数据的增长，主動駕驶模子的進修是一個延续晋升的進程，是以構建数据闭環也是主動駕驶的焦點能力。

数据闭環的第一個方面即是数据收集。

baidu李举頭先提出，数据纯度比数据范围加倍首要。数据提纯的首要步调就是数据發掘。适才咱們提到了用大模子在云端举行数据發掘，實在数据發掘不但可以在云端做，也要在車端做。無人車每秒钟城市采集到几十MB的数据量，收集没法支持全量的数据回傳，是以在車端就要举行数据的挑選，把那些在模子决议计劃鸿沟（置信度低）的数据回傳，實現自動進修。

▲云端数据提纯

数据闭環的另外一個方面就是主動化的模子練習。主動化模子練習有两個關頭技能，第一是主動化模子搜刮（AutoML），第二是延续進修（Continual Learning）。主動化模子搜刮指讓練習體系主動举行模子调優，AutoML在曩昔几年是比力红火的鑽研標的目的，也有很多論文和實践的摸索。baidu利用的是一種基於進化算法改良的方案，重要搜刮模子的超参数，如使命的权重、optimizer的参数等。感樂趣的同窗可以参考論文Population-based training [6]。

而這里提到的延续進修是近来AI鑽研者們更加存眷的课题，深度進修在新的数据延续注入模子練習的進程中，會表現出两個缺點：（1）劫難性遗忘（catastropic forgetting），即學了新的数据今後在旧的数据上轻易產生遗忘；（2）可塑性丧失（loss of plasticity），即模子在屡次練習今後，在新数据上的進修能力變差/慢。

是以，若何讓模子在旧的数据上和新的数据上都表示的好，是一個颇有挑战的trade-off。baidu所采纳的，buffer replay是解决劫難性遗忘的有用法子，continual b驅蟑螂藥,ackprop是解决可塑性丧失的有用方案。感樂趣的同窗可以浏览相干論文Experience Replay[7]和Continual Backprop[8]。

在買通以上数据發掘和主動練習的環節以後，模子便可以實現延续的晋升和迭代了。下图中展現的是跟着主動化練習，模子在平凡物體和小物體上的表示都获得了晋升。

▲数据發掘和主動練習引擎

在数据闭環的演讲最後，有一個技能點讓我感觉面前一亮。

咱們晓得，主動駕驶的算法流程是一個串行布局，包含感知-展望-计劃，可是優化局部模块不代表终极带来主動駕驶能力的晋升。以展望為例，更好的轨迹展望其實不代表能带来更好的决议计劃计劃成果。

而在baidu的主動模子搜刮的方案中，通事後期的仿支票借款,真评測，获得一系列（模子，展望指標，仿真指標）的数据對，是以可以練習一個简略的線性回归层，進修展望指標到仿真指標的相干性，這也代表了分歧場景下停滞物的展望能力對仿真结果的首要度。經由過程如许的方法，便可以在搜刮展望模子的時辰，同時到达仿真的需求，削减掉入局部最優的可能性。

主動駕驶是一個體系性工程，李昂本次關於数据闭環技能的分享，展示了baidu在主動駕驶方面举行的是體系的技能立异：既存眷常見的感知、决议计劃、節制環節，又在AI算法最關頭的数据提纯、標注和模子練習環節举行斗胆立异，用新的技能思绪息争题模式晋升底层技能的支持力，终极又反過来能促成感知、决议计劃等環節的成长。

05

只有技能立异

才能鞭策無人車落地

當下的主動駕驶，特别是高品级的主動駕驶體系迟迟無律例模商用的缘由，主如果有几大技能問题難以解决致使，包含：感知中的长尾物體難辨認、高精舆图本錢高難以保护、决议计劃计劃過度依靠法則、算法能力難以随数据延续晋升等等…

這些問题在全世界范畴内致使無人車落地進度较慢，因此近来几年里外界也時時時會呈現了一些看衰無人車和高品级主動駕驶行業的杂音。

回到技能自己，上述這些技能問题真的就無解嗎？谜底明显是否認的，一方面學術界各類專家在踊跃举行技能鑽研，不竭提出像是BEV、大模子等新的法子。另外一方面具有海内最巨大技能l團队的baidu明显也在踊跃把這些前沿的技能法子投入到現實的產物研發當中。

本次baiduApollo技能日分享的内容就是最好的例證：大模子用於降服长尾和坚苦物體的感知；提高建图的主動化水平，低落高精度舆图本錢；展望决议计劃模块一體化進修方案解决了法則决议计劃的問题；数据闭環買通数据-模子-指標的主動化反馈能力，延续高效晋升模子结果…

在這些新技能的加持下，明显将讓baidu和整其中國的高品级主動駕驶車辆更大范围的落地又近了一步。

[1] Liu, Z., Tang, H., Amini, A., Yang, X., Mao, H., Rus, D. and Han, S., 2022. BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation. arXiv preprint arXiv:2205.13542.

[2] Chen, X., Zhang, T., Wang, Y., Wang, Y. and Zhao, H., 2022. Futr3d: A unified sensor fusion framework for 3d detection. arXiv preprint arXiv:2203.10642.

[3] Zoph, B., Ghiasi, G., Lin, T.Y., Cui, Y., Liu, H., Cubuk, E.D. and Le, Q., 2020. Rethinking pre-training and self-training. Advances in neural information processing systems, 33, pp.3833-3845.

[4] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J. and Krueger, G., 2021, July. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (pp. 8748-8763). PMLR.

[5] Chen, Q., Wang, J., Han, C., Zhang, S., Li, Z., Chen, X., Chen, J., Wang, X., Han, S., Zhang, G. and Feng, H., 2022. Group detr v2: Strong object detector with encoder-decoder pretraining. arXiv preprint arXiv:2211.03594.

[6] Jaderberg, M., Dalibard, V., Osindero, S., Czarnecki, W.M., Donahue, J., Razavi, A., Vinyals, O., Green, T., Dunning, I., Simonyan, K. and Fernando, C., 2017. Population based training of neural networks. arXiv preprint arXiv:1711.09846.

[7] Rolnick, D., Ahuja, A., Schwarz, J., Lillicrap, T. and Wayne, G., 2019. Experience replay for continual learning. Advances in Neural Information Processing Systems, 32.

[8] Dohare, S., Mahmood, A.R. and Sutton, R.S., 2021. Continual backprop: Stochastic gradient descent with persistent randomness. arXiv preprint arXiv:2108.06325.

		自動登錄	找回密碼
密碼			立即註冊