自動駕驶数据闭环系列之一:理想丰满,现實骨感

admin · 發表於 2024-4-24 18:06:56

比年来，数据闭环成為了主動駕驶行業的一個热點话题，不少主動駕驶公司都在试图打造本身的数据闭环體系。

现實上，数据闭环其實不是一個新的觀點。在傳统软件工程范畴，数据闭环被用来作為改良用户體驗的一種首要方法。信赖大師都有過如许的履历，在利用软件時，屏幕上跳出一個弹窗，扣問你“是不是容许该软件采集你的数据”，若是你赞成相干条例，那這些数据便會被用来改良用户體驗。

當用户端软件捕获到一個問题時，後台能抓取响應数据，然後由開辟团队阐發此問题後對软件做修复和完美，交由测试团队测试好新版本软件，以後會将新版本软件放在云端，并由用户更新到终端，這是软件工程中数据闭环的流程。

在主動駕驶場景中，問题数据凡是是在實驗車上采集，少少数車辆能實如今量產車上采集。采集後必要對数据做標注，然後工程師在云端用新的数据練習神經收集模子，從新練習後的模子凡是會經由過程OTA的方法摆設到車端。

一個完备的数据闭环凡是包含数据收集、数据回流、数据處置、数据標注、模子練習、测實驗證這几個环節。

△Momenta数据闭环流程示意

以特斯拉為例，設置装备摆設了主動駕驶硬件的車队收集經由過程法则及影子模式下的触發器挑選的数据，颠末语义挑選後的数据被回傳到云端。尔後，工程師在云端用东西對数据做一些處置，再把處置好的数据放入数据集群，然後操纵這些有用数据練習模子。模子練習好以後，工程師會把練習好的模子摆設回車端做一系列的指標檢测，颠末驗證的新模子會被摆設到車端供駕驶員利用。

在這類模子下，會有新的数据源源不竭被触發還傳，從而構成轮回。此時，一個完备的由数据驱動的迭代開辟轮回便形成為了。

今朝，采纳数据闭环来驱動算法迭代，几近已被公認為是晋升主動駕驶能力的必由之路。不少主機厂和主動駕驶Tier1都在搭建本身的数据闭环體系，乃至還專門設置了数据闭环架構師的职位。

数据闭环的意义是甚麼？数据闭环可以或许在量產車上落地的布景是甚麼？数据闭环在量產車上落地的進程中有哪些痛點和若何應答？

接下来，本文将环抱這些话题一一會商。

按照智駕科技MAXIEYE的先容，“数据闭环對付產物的機能，不但仅是某個功效的機能提高，還能以影子模式的情势驗證新功效。同時按照数据触發的種别，對付體系的其他方面也能够帮忙優化，好比radar/camera blockage 的檢测，可以按照回傳数据優化阈值。在機能层面，数据回傳根基上可以優化所有的機能，好比AEB，LKA，ELK，ACC，TJA，NOA等。MAXIEYE已經由過程数据回傳OTA不竭進级AEB, ACC, TJA 等體系功效，并且預埋了新功效的影子模式。”

现在，各家公司纷繁打造本身的数据闭环體系，重要但愿實现的結果包含晋升corner case数据收集效力、提高模子的泛化能力和驱動算法的迭代。

只如果L2及L2以上的產物，都必要具有延续進化的能力。要讓主動駕驶體系延续地進化，就必要不竭得到corner case的数据。而跟着愈来愈多的corner case從“未知”轉换成“已知”，經由過程数目有限、情势线路也有限的测试車辆發掘出新的corner case的難度愈来愈大。

經由過程在場景笼盖度更廣的量產車上摆設数据收集體系，在碰到當前的主動駕驶體系處置地得不敷好的情景時，触發数据回傳，是一種比力好的获得corner case的法子。

比方，可以在搭载L2辅助駕驶的量產車上摆設AEB體系，然後采集駕驶員猛踩刹車、猛踩油門、猛打轉向、猛打標的目的盘等的数据，阐發為甚麼駕驶員在做這些操作的時辰AEB體系没有任何相應。针對AEB體系應答地不敷好的問题做响應改良，提高AEB體系的能力。

當前，高品级的辅助駕驶正在從高速向都會進军。要解决高速如许相對于简略的場景，根基上，仅靠测试車收集的数据来練習模子就够了，而不是必定要回傳量產車的数据；但是，都會場景的繁杂度大幅晋升了，并且分歧都會的路况也有不少差别。比方，在廣州，到處可见拉着貨品的三轮車在門路上奔驰，而在上海就很少會面到這類情景。

是以，不少主動駕驶Tier1和車企對場景買通的诉求很强烈——即車辆的辅助駕驶體系可妥帖應答各主流大安通馬桶,都會的各類路况。由于車企没法限定用户的行驶范畴，假設只针對很小的區域做好辅助駕驶功效，會大大缩小用户群的范畴，這明显不是車企但愿看到的。

要實现場景買通的方针，模子的泛化能力就必要大幅提高。要大幅提高模子的泛化能力，就要尽量地把各類各样的場景對應的数据都收集到。而只有基于大范围真實人駕数据的乘用車辅助駕驶才有能力堆集到足够范围和足够多样的数据。

前文提到，基于深度進修的人工智能算法成长已跨越十年。這時代，跟着模子的演進和算力的成长，主動駕驶體系對大数据的消化成為可能。别的，主動駕驶體系要進级，感知、计劃等环節都必要在能力上有响應的晋升，而采纳数据驱動，讓算法延续不竭地進化，是晋升感知、计劃等环節能力的一個高效的方法。

都會NOA——即都會内的點對點导航辅助功效是不少主機厂和主動駕驶Tier1接下来的發力點，要實现點對點的导航辅助駕驶功效，感知體系的语义辨認、停滞物辨認、可行驶區域的辨認都必要具有必定的精度，但是今朝這一尺度還没有實现。

今朝主流的感知體系收集架構是基于BEV+Transformer模子，纯真寄托软件工程師或算法架構師来優化，模子可以晋升的空間不太多，而BEV+Transformer的架構可以容纳大量的数据，進而有望讓模子結果获得晋升。

在计劃层面，数据驱動也能够阐扬感化。特斯拉起初利用部門束缚下的最優方案作為初值，然後采纳递增的方法不竭参加新的束缚，再求解增长束缚後的優化問题，终极获得计劃問题的最優。特斯拉工程師针對此法子离线做了不少預天生，并在在线做了并行優化，如许每一個候選路径的计较時候依然长达1～5ms。而按照特斯拉在2022年9月30日的AI day上表露的内容，特斯拉的工程師如今利用了一套数据驱動的决议计劃树天生模子来帮忙主動駕驶體系快速生陈規劃路径。這個数据驱動的决议计劃树天生模子利用特斯拉車队中人類駕驶員駕驶数据和無時候束缚下的最優路径作為真值举行練習，可以或许在100us内天生一個候選计劃路径，大大收缩了天生候選计劃路径的時候。

综上可见，搭建好数据闭环體系是主動駕驶體系能力晋升的一個首要方法。

當前，许大批產車上都搭载了辅助駕驶體系，人們可以在量產車上收集数据，主動駕驶體系的路测里程跨越1亿千米已驳诘事。别的，芯片算力進一步加强——比方英伟达的OrinX芯片算力可达254TOPS，@是%66767%以大模%d4tRs%子@起頭被利用于感知體系蚯蚓腿膏,，主動駕驶體系對大数据的消化成為可能。另外一方面云端技能较為成熟，主動駕驶起頭渐渐進入数据驱動的期間。

MAXIEYE公司方面的诠释是：“切當地来讲，如今不但仅是数据驱動，而是AI算法和数据配合驱動。AI算法解决的是進修效力的問题，数据解决的是進修内容的問题，算法和数据是共生瓜葛。”

“基于深度進修的人工智能算法的成长已跨越了十年，在這十年間的初期阶段，监视進修是學術界和工業界的主流，而监视進修有一個致命的缺點，就是必要大量的人工標注，這大大的限定了AI的前進空間，但在近几年，無监视和半监视進修算法渐渐地起頭鼓起，计较機可以經由過程自進修的方法不竭地對数据举行洗濯和對算法举行自我迭代，是以，經由過程数据驱動的方法開辟主動駕驶技能的前提已成熟。”

长城沙龙智能化中間卖力人杨继峰在一次演讲中提到：“從整車角度上，2022年完成為了L2到L4的架構闭环和数据闭环，車端架谈判云端架構的進一步同一。接下来的竞争是数据發掘、数据的有用操纵和全部技能栈對数据的理解，和如安在大范围的根本举措措施上均瘦身燃脂丸,衡全部计较效力。”

今朝，大師关于数据闭环對付主動駕驶體系的意义已告竣共鸣，数据闭环在量產車上的落地的機會也根基成熟。那末，各家的数据闭环现實落地的环境若何？咱們若何去评判一家公司数据闭环體系搭建的結果呢？

笔者從智駕科技MAXIEYE领會到，對付主動駕驶Tier1来说，技能上實现数据闭环并不是困難，本色上看的是该Tier1的產物气力——是不是能經由過程数据闭环赋能車厂。其次，数据闭环的結果還要看產物的迭代是不是由数据闭环驱動，是不是能基于回傳数据實现软件及算法的優化，并按期經由過程OTA摆設到终端。

當前，按照数据闭环能力的凹凸，主動駕驶Tier 1可劃分為三類：第一種是已實现范围化量產的数据闭环，第二種是經由過程收集車實现闭环，第三種是尚未實现数据闭环的能力。今朝来看，第一種還属于少数派。

按照笔者和業内助士交换获得的信息，今朝大部門公司的数据来历都是收集車。因為用户隐私、根本举措措施、本钱等各種身分，在量產車上大范围收集数据用于主動駕驶體系的迭代進级還没有實现。有的公司還没有搭建幸亏量產車上收集数据用于数据闭环的流程，有的公司固然搭建好了流程，也收集了一些数据，但尚没有将数据很好地用起来。

据悉，少数公司會從量產車上收集一些数据，但業内助士反應今朝收集這些数据主如果用来诊断當前的主動駕驶體系存在的妨碍等，而非用于深度進修模子的迭代。

也便是说，今朝很少有公司真正實现了范围化量產的数据闭环——即用好從大范围量產車上收集的数据来實现主動駕驶體系能力的晋升。那末，数据闭环的量產落地事實有哪些痛點？针對這些痛點，有甚麼样的應答计谋呢？

量產落地的實践中必要斟酌的問题包含但不限于：若何包管数据收集和利用的合規性、数据确权問题若何解决、数据收集功效若何與主動駕驶體系共存、数据處置難度大、数据驱動的软件體系繁杂度高、模子練習難度大等。

合規分為测绘合規和隐私合規：测绘合規重要触及到收集國度地舆信息時的合規，隐私合規重要触及到收集用户隐私太陽能LED感應燈,相干数据的合規。

测绘合規方面，近几年，國度對数据平安的辦理趋严，出台了相干法令律例来對回傳数据的范畴举行限定。2022 年 “830 新規”以後，車辆在門路上收集的数据都属于测绘数据。企業要利用测绘数据，後续的数据加密、数据合規的环節必不成少。

起首，在門路上收集数据的時辰，企業必要具有國度测绘天資，而且要做响應的存案，不然收集進程中會被國安等部分阻拦。今朝，海内统共有约30家機構具有相干天資，有的企業具有國度電子导航甲级天資，合用范畴较廣，在海内多個都會均可以收集，而有的企業具有乙级天資，合用范畴就會更小，只能在特定的都會收集。

因為测绘天資很難获得，必要有持久的营業堆集，而且，要保有测绘天資，企業就必要有响應的测绘营業。是以，主機厂和主動駕驶Tier1一般會拜托带有天資的供给商或单元，比方如今有些云厂商會帮忙客户环抱数据的获得、加工、利用来設計一個合規方案。

收集到数据後，還必要在車端脱敏、加密，上云以後（一般来说是私有云），還必要做一些合規事情，這一部門會由有天資的供给商或单元来帮手做测绘的合規。對付部門很敏感的数据，必要由图商来做收集，并且数据必要在脱敏以後存储在图商羁系的辦事器里。

此外，测绘的数据不得泄露，特别是不得将数据挪到外洋，非中國國籍的人既不克不及获得测绘数据，也不克不及在公司内操作测绘数据。

一般来讲，主機厂和主動駕驶Tier1會創建本身的数据中間，出于平安斟酌，這些数据中間都比力封锁。主機厂和主動駕驶Tier1必要利用這些数据中間存储的数据来做一些練習、仿真等事情的時辰，基于合規请求，必要将相干模子摆設到数据中間来利用。

有業内專家暗示，“测绘的合規流程太繁杂，天資也很難获得，大師但愿尽量削减對高精舆图的依靠，這是今朝業界風行‘重感知輕舆图’方案的一部門缘由。但现實上，輕舆图不必定就是‘更好’，由于有舆图数据結果必定比没有好。今朝這個趋向不必定是终极的形态，也不必定是最佳的，只是大師但愿能做得更简略一點。”

隐私合規方面，企業在量產車上收集数据，必要用户授权。雷同于用微信的時辰，企業必要用户在一起頭签訂授权协定，并告诉用户哪些数据會被收集，哪些利用举動會被记實。

今朝在隐私合規方面，國度還没有出台出格详细的方案劃定哪些数据可以采哪些不成以，而是唯一一個相對于宽泛的条目来規定命据收集方“不得泄露用户隐私”。

现實操作中，触及到用户信息的数据必要做脱敏，比方車商標必要隐去等。九章在“一文读懂数据脱敏技能在智能汽車中的利用”中有关于這部門详细的先容，此處再也不赘述。

咱們是不是可以在車上收集主動駕驶行業必要的摄像頭、激光或毫米波構成的数据呢？

魔视智能產物司理苏林飞先容道：“依照中國的《小我信息庇護法》相干劃定，非法令容许的数据收集遭到隐私庇護。在德國，原德國联邦信息庇護局有如许的劃定，若是司機不是受害者，未經對方赞成就记實其他司機的脸和車辆，是违背小我信息庇護法的。也就是说，即便是車主记實他人信息也可能属于违法。但因為和新能源車伴生的主動駕驶行業很新，法令劃定今朝尚属空白，以是咱們依照根基法學理念推导，量產車收集的数据應當由車主所有。”

那車主利用本身的車辆收集的数据是不是可以授权给其他单元利用呢？

今朝并無相干法令劃定與束缚。可是在其他行業，好比手機、互联網范畴，是遍及容许的。

谁可以拿到車主上傳的数据？

從汽車财產链分工看，2種主體可以拿到，第1種是無人車队運营公司，好比baidu的無人駕驶出租車，第2種是主機厂。但因為前者范围较小，以是咱們重點先容後者。

因為主機厂离用户近来，以是最輕易拿到用户上傳的数据。在全世界范畴看，Tesla是在這方面做地最佳的主機厂。

今朝，主機厂很少對外開放数据，致使主動駕驶Tier1在帮忙主機厂實现了主機厂定制的功效後，很難采集到用户在利用這些功效時的反馈数据，除非Tier1本身有不少测试車。那末，主動駕驶Tier1就難以按照用户反馈的数据對相干功效做後续的優化，数据闭环就難以實现。

魔视智能產物司理苏林飞奉告笔者：“咱們在帮主機厂做完一個项目以後，假設主機厂不開放数据接口，咱們就很難拿到用户的反馈数据，進而针對此車型進一步迭代產物機能。最後大部門主動駕驶體系供给商成了以项目運作為焦點的公司，進而跟着產物機能的後進渐渐被镌汰。

更糟的是，因為主動駕驶體系源代码開源的趋向已呈现，有的主機厂會但愿本身搭建数据闭环體系来實现主動駕驶的功效，因此也不肯意把数据分享给供给商。但主機厂如许做我認為其實不公道，我認為從主動駕驶总體的生态来说，最佳仍是大師各司其职，專業的人做專業的事。只是今朝行業還處于比力初期的成长阶段，可能大師城市想要测驗考试，從而掌控更大的自動权。”

某新能源主機厂專家暗示：“之前主機厂不肯意把数据给供给商是没想大白供给商可以怎样回馈本身，可能给了数据以後對方也不晓得要若何利用。可是如今，對付互助的供给商，好比给主機厂供给主動駕驶解决方案的，主機厂是可以開放数据利用权的。固然了，開放数据利用权的条件是合規，供给商在接管主機厂供给的数据和在利用数据時都必要包管全部流程是合規的。”

對付主機厂来讲，假設不把数据開放给供给商，那末就本身挖掘這些数据的價值。初期的時辰，大師都不太晓得這些数据详细有甚麼價值，必要華人整形,用起来才能渐渐發明價值。主機厂可以把数据先给供给商利用，同時本身保存一份，供给商挖掘出数据的價值以後再回馈主機厂。

如今有的主機厂會请求供给商在sop以後仍能延续地帮忙他們迭代软件，而供给商也能够以此為契機得到数据，如斯一来主機厂和供给商可以實现共赢。固然了，站在主機厂的角度，今朝這類方法依然存在一些瑕疵，由于供给商很難包管迭代後結果必定會變好。主機厂也很難驗證迭代結果，以是主機厂經常反向请求供给商開放中心成果（比方感知方针辨認成果）数据的接口，如许主機厂便可以經由過程针對中心成果的统计指標来驗證供给商的迭代結果。

今朝，重要必要两邊本着相互信赖，朴拙互助的心态，主機厂開放数据利用权给供给商，然後供给商按期更新软件，而且能看到响應的結果，如许互助就可以延续下去。只是今朝這個模式還没有被遍及接管，由于大師還没有看到较着的結果。

在量產車上收集数据會占用一些體系資本，好比计较、存储等。理论上，可以假如计较資本、收集带宽等都不受限定，但在现實落地進程中，若何包管收集数据不影响量產車上主動駕驶體系的正常運行，比方，若何不影响主動駕驶體系的延迟等，這是一個必要解决的問题。

固然了，有的公司會在主動駕驶體系不運行的時辰再上傳数据，如许就不存在資本占用減內臟脂肪,的問题。可是也有業内助士認為，仅在主動駕驶體系不運行的時辰上傳数据就會限定数据的收集量，现阶段仍是要尽量多地收集数据。那末，在設計的時辰，就必要斟酌到收集数据等對主動駕驶體系運行的影响。

据估量，從量產車回傳数据後，单車逐日回傳的数据量大要為百兆级。研發阶段，車辆总数可能只有几十辆或几百辆。可是到了量產阶段，車辆数目標量级可以到达上万、几十万乃至更多。那末，量產阶段，全部車队日發生的数据量就是很大的数字。

急剧增长的数据量给存储空間和数据處置的速率都带来了挑战。量產以後，数据處置的延迟必要和研發阶段连結在统一個量级。但若底层的根本举措措施跟不上，数据處置的延迟就會跟着数据量的增加而响應地增长，如许會极大地拖慢研發流程的進度。對付體系迭代来说，這類效力的低落是不成接管的。

一名業界專家奉告笔者，“今朝，咱們尚未看到哪家公司具有處置量產車上回傳的大范围数据的能力。即便是某家在数据闭环层面做得比力前沿的造車新权势，即即是每辆量產車天天只回傳5分钟的数据，他們也難以應答如许的数据量，由于當前的存储装备、文件读取體系、计较东西等都還没法應答极大的数据量。”

要應答愈来愈大的数据量，底层的根本举措措施和平台的設計都必要响應進级。

工程团队必要開辟完美的数据访存SDK。因為视觉数据、雷达数据的文件尺寸都很是大，数据的拜候、盘問、跳轉、解码進程都必要效力足够高，不然會大大拖慢研發進度。

車端数据回傳到云端後，工程团队必要實時给大量数据做好標注。業界今朝會借助預練習模子来做辅助標注，可是数据量很大時，標注依然必要很大的事情量。

在做数据標注的時辰，還必要确保標注成果的一致性。今朝，業界還没有實现全主動数据標注，依然必要人工完成一部門事情量。在人工操作的時辰，如安在数据量极大的环境下，包管標注成果的一致性也是一大挑战。

别的，主動駕驶相干的数据不但量大，并且種類繁芜，這也给数据處置增长了難度。数据類型依照来历劃分包含車辆数据、位置数据、情况感知数据、利用数据、小我数据等等，依照格局劃分包含布局化数据和非布局化数据，数据的辦事類型又涵盖文件、工具等，若何同一尺度，和谐分歧類型的存储、拜候接口也是一浩劫题。

傳统的V字型開辟模式很難合用于数据闭环。并且，今朝行業中尚未構成同一的面向高品级主動駕驶的软件開辟平台及中心件。

某公司主動駕驶部分的技能專家奉告笔者，“以数据和深度進修模子驱動的主動駕驶功效迭代系统可以称之為软件2.0。在如许的模式下，整個别系，包含团队的構建、研發流程、测试法子、东西链都是环抱数据構建的。”

在软件1.0期間，每小我提交了甚麼代码，預期的結果都是很輕易评估的。可是，在软件2.0期間，每小我進献的部門對总體結果的影响的权衡難度變大了，并且也很難事前預期，由于大師互相交换的再也不是清楚可见的代码，而是数据和按照数据更新的模子。

在数据量很少的時辰，比方咱們以前做挪動互联網利用的AI视觉算法，因為数据量很少，触及的视觉模子工程師，大師根基上是Windows或Ubuntu的文件夹各自辦理，团队成員相互之間直接用各類從新定名的文件夹往返傳输，很是低效举行数据互换或互助。

可是触及到主動駕驶使命時，咱們面對的是几十万张图片，并且是几百人配合研發一個體系，每次改動触及到的的模块可能都是上百甚至上千。若何评测每一個模块的代码質量，若何查驗各模块之間是不是有冲突，這些都是较為繁杂的使命。迄今為止，我認為這套體系仍较為糟，工程化部門還不敷成熟。

到了软件2.0阶段，還必要應答的問题是：若何权衡新增的数据對特定的場景和對全局的影响别离是甚麼，若何防止基于新增数据從新練習的模子在一些特定使命上結果變好但整體上結果降低。要解决這些問题，咱們必要做单位测试，来查驗新增部門数据後，對咱們但愿解决的细分場景有無帮忙和對全局有無帮忙。

举例来说，假設针對某個特定的使命，原始的数据集是2000万张图片，然後新增500张图片，解决這個特定使命的能力晋升了，但有時辰這也同時象征着模子在應答全局使命時得分低落。

别的，针對视觉使命，除按照指標来果断新增数据對模子的影响，咱們還必要现實去看详细的影响是甚麼，如许才能晓得優化是不是合适預期。仅仅經由過程指標来看可能會呈现固然指標晋升了但现實結果依然不合适預期的环境。

咱們還必要有一套根本举措措施，来包管每次做的更新是全局最優的。這套根本举措措施會触及到数据的辦理、練習的评测等。特斯拉在這個方面是走在行業前列的，它关于数据驱動的整条链路從一起頭的設計上就是领先全行業并且從2019到2022年，不必要太大的扭轉就可以支持產物的迭代。

解决了数据收集、存储、標注等問题後，後续的模子練習、功效迭代依然是挑战。

練習量產車上回傳的大量数据，必要有高效的文件傳输體系，包管練習時不被I/O“洽商”。

同時，還要有充沛的算力。提高算力的方法凡是是打造多卡并行的集群，那末，如安在練習時连結高效的卡間通讯来削减数据傳输的延迟從而充實有用地操纵每张卡的算力也是必要斟酌的問题。

為應答模子練習對算力的需求，有主機厂專門打造了本身的智算中間。但是，打造智算中間的本钱很高，對付中小企業来讲，這几近是一件不成能的事變。

虽然當前仍存在诸多痛點，但咱們依然可以預期，假以光阴，今朝存在的問题會被逐一解决。届時，数据闭环能在量產車上真正落地，在量產車上落地後收集的数据将反哺数据闭环體系，鞭策主動駕驶體系走向更高阶。

		自動登錄	找回密碼
密碼			立即註冊