admin 發表於 2024-8-21 18:06:10

自動駕驶革命:解密端到端背後的数据、算力和AI奇迹

输入:大部門主動駕驶汽車都装载了相機、Lidar、毫米波雷达等各種傳感器,收集這些傳感器的数据,输入深度進修體系便可。

输出: 可以直接输出转向角、油門、刹車等節制旌旗灯号,也能够先输出轨迹再連系分歧的車辆動力學模子,将轨迹转為转向角、油門、刹車等節制旌旗灯号。

可見,端到端主動駕驶體系就像人類的大脑,經由過程眼睛、耳朵等傳感器接管信息,颠末大脑處置後,下达指令给四肢举動履行号令,全部體系简略的都没啥可先容的……。可是這類简略也暗藏了庞大的危害,比方可诠释性很差,没法像傳统主動荷重元,駕驶使命同样将中心成果拿出来举行阐發;對数据的请求很是高,必要高質量的、散布多样的、海量的練習数据,不然AI就會實現垃圾進垃圾出。

與傳统的主動駕驶方法比拟可見,一样的输入、一样的输出,傳统主動駕驶包括多個使命(多個模块),燃脂按摩油,可是端到端只有一個使命。此處轻易發生一個误區,即認為傳统的主動駕驶是多模水泡疹藥膏,块的、端到端主動駕驶是单模块的,把分模块與分使命的觀點搞混了。

傳统的主動駕驶是分使命的,必定是多個模块。端到端主動駕驶可以用单模块来實現,固然也能够用多模块来實現,其區分在於是不是端到端練習。分使命體系是每一個使命自力練習、自力優化、自力測评的,而端到端體系是把所有模块當作一個总體举行端到端練習、端到端測评的。

比方2023年CVPR best paper提出的UniAD就是一種分模块端到端練習方法,這類方法經由過程端到端練習防止了多使命練習的交融困難實現全局最優,又保存了分模块體系的上風、可以抛出中心模块的成果举行白盒化阐發,反而更具機動性對摆設也更友爱,如图所示:

分使命的主動駕驶體系更像model centric體系,開辟者經由過程不竭優化各個模子来晋升各個使命的结果。而端到端主動駕驶則更像data centric體系,經由過程對数据的调優来晋升體系结果。

早年,因為主動駕驶堆集的数据還很是少,端到端體系的结果常常比力差。近来几年,跟着带高阶辅助駕驶功效的量產車大范围落地,經由過程海量量產車可以收集到丰硕的駕驶数据,笼盖各種場景,再加之近来几年AI算力的蓬勃成长,端到端主動駕驶在海量数据、海量算力的加持下,取患了冲破性希望。

以特斯拉為例,經由過程遍及全世界的几百万辆量產車,可以收集到足够丰硕、足够多样的数据,再從當選出優良数据,在云端利用数万张GPU、和自研的DOJO举行練習和验證,使得端到端主動駕驶可以或许從paper酿成product。

到 2023 年頭,特斯拉就宣称已阐發了從特斯拉客户的汽車中采集的 1000 万個視频片断(clips),特斯拉果断完成一個端到端主動駕驶的練習最少必要100万個、散布多样、高質量的clips才能正常事情。

特斯拉經由過程散布在全世界的几百万量產車,基於影子模式,每當主動駕驶决议计劃與人類司機纷歧致時,就會收集并回傳一個clip,已积累了200P以上的数据,不論是数据范围、数据散布仍是数据質量上都遥遥领先。為了能在云端處置這些数据,當前特斯拉具有近10万张A100,位居全世界top5,估计到本年底會具有100EFlops的算力,并针對主動駕驶自研了Dojo,在算力上一样遥遥领先。

在2022年,毫末智行也起頭了對端到端主動駕驶和主動駕驶大模子的摸索,走過了一条從看图措辞到完型填空到寫小作文的門路。

最先,平價沙發推薦,毫末将端到端主動駕驶简略地界说為一個看图措辞使命,但愿输入一串图片、输出一串駕驶决议计劃,這類方法與呆板翻译输入一串中文输出一串英文很是雷同,以是可以選擇端到真個序列模子,經由過程對输入图片举行编码,再解码输出駕驶决议计劃。

可是練習以後,發明難以找到足够的数据来練習模子,由於手里收集到的数据绝大部門駕驶举動都是類似的,比方大部門都是直行,能用的数据不到2%。固然項目结果未达预期,可是練習進程發明端到端練習必要损耗大量的算力,因而又起頭着手解决算力問题,而且在2022年末跟火山引擎互助落地了業界领先的智算中間,等2023年大模子暴發再加之美國的制裁,算力市場已一卡難求了,這也算一個不測收成。

從特斯拉的開辟履历来看,端到端主動駕驶真不是一般的企業能玩的,其所需的数据范围、算力范围远远超越海内企業的經受能力。除本錢昂扬,端到端主動駕驶的技能難度也很是高,想要從實現從paper到product落地,至關於超過從二踢脚到登月的難度。
頁: [1]
查看完整版本: 自動駕驶革命:解密端到端背後的数据、算力和AI奇迹