自動駕驶合成数据科普一:不做真實数据的“颠覆者”,做“杠杆”

admin 發表於 2024-8-21 17:53:12

在7月尾的一篇文章中，九章智駕提到，数据闭環能力是主動駕驶下半場的“入場券”，這一概念在行業内引發了遍及共识。

在数据闭環系统中，仿真技能無疑是很是關頭的一環。仿真的出發點是数据，而数据又分為真實数据跟合成数据。跟着真實数据“范围小、質量低、利用難度大”等問题日渐表露，合成数据愈来愈受器重。

顾名思义，合成数据（synthetic data）就是經由過程计较機技能天生的数据，而不是由真實事務發生的数据。但合成数据又具有“可用性”，可以或许在数學上或统计學上反應原始数据的属性，是以也能够用来練習、測试并验證模子——OpenAI 的 GPT-4，就采纳了大量前一代模子 GPT-3.5 出產的数据来举行練習。

在2022年末，笔者曾寫過5篇關於主動駕驶仿真的科普文，但這几篇文章對合成数据的着墨未几。曩昔的两個月里，笔者在進修合成数据的進程中，又碰到了很多疑難，带着這些疑難，笔者就教了十多位業内專家，然後構成“合成数据科普文”系列。

在本系列文章的撰寫進程中，笔者获得了光轮智能CEO谢晨、图森首席科學家王乃岩、辰韬本錢赵磊、复睿微電子张俊川、baidu仿真專家徐志健、昆易電子方志刚、“車路渐渐”運营者李漫漫、PanoSim王文威等朋侪的支撑，在此暗示感激。

主動駕驶合成数据科普一：

不做真實数据的“倾覆者”，做“杠杆”

主動駕驶的仿真，最先就因此合成数据為主。這里讲的合成数据，主如果指由人工基於法則搭建的場景，這暗地里的技能，就是業内常说的WorldSim。凡是，基於WorldSim搭建的場景，還必要用Unreal等遊戲引擎来做图象衬着。直到今天，WorldSim+遊戲引擎依然是主動駕驶行業用得至多的合成技能之一。

看起来，基於WorldSim+遊戲引擎的合成数据能在必定水平上补充真實数据不足的問题，但是，在現實利用中，這類合成数据存在一個很難降服的短板：真實度還不敷高。用更專業的術语来讲是“保真度”不敷高。

這一痛點，决议了基於WorldSim+遊戲引擎的合成数据根基上只能用来做測试，很難用於做算法練習。

為了避開WorldSim+遊戲引擎技能的這一短板，有一些公司试图将真實門路数据“转換成数學模子”。但是，這一假想施行起来坚苦重重。

但合成数据“可用性”的晋升，并未是以而遏制。

真正能帮合成数据晋升可用性的，是更高的保真度和更强的泛化能力。GAN、VAE和Diffusion Model等模子在主動駕驶仿真中的利用，已證了然這一點；而當下廣受追捧的NeRF技能，也必要包管泛化能力才有可能被遍及利用。

當下大热的AI大模子能，也将在主動駕驶仿真中占据一席之地。究竟上，AI大模子+NeRF的组合，被一些從業者視為帮合成数据霸占保真度和泛化能力這两浩劫题的關頭兵器。

跟着合成数据面對的重要困難被逐一霸占，真實数据“范围小、質量低、利用難度大”的問题也再也不那末使人担心。

凡是，在谈起合成数据時，人們本能地觉得它的重要价值是补充真實数据“数目不足”的問题。但這多是一個紧张的误會。

在笔者看来，真實数据的最重要問题其實不是“太少”，而是“質量低，利用難度大”。以是，哪怕真實数据的范围很大，合成数据依然是必不成少的。不信的话，看看“最不缺”真實数据的特斯拉是怎样做的吧——特斯拉也在利用合成数据！

在海内，各家已有主動駕驶量產車型上路的主機廠也不缺真實数据，但這些数据的操纵率事實“高达”20%、10%仍是1%，實際上是存在很大的疑難的。

不外，真實数据質量低、利用難度大给主機廠带来的困扰，恰合也就是合成数据的用武之地。

成心思的是，分歧於L4公司廣泛用合成数据来“补充”真實数据的不足，一些以供给合成数据辦事為主業的公司更偏向於将合成数据定位為真實数据的“杠杆”。在後者看来，合成数据的任務和愿景其實不是要去頂替真實数据，而是要做真實数据的“放大器”，帮忙主機廠或主動駕驶公司提高真實数据的利用效力。

下面，咱們将以1.1万字的篇幅来清點一下“合成数据事實能解决真實数据的哪些痛點”。

在真實場景中，主動駕驶車辆的傳感器收集到的信息常常包含車牌、人脸，但出於隐私庇护的需求，這些数据凡是多数没法直接利用，而是得先做脱敏或加密才行。但脱敏不但象征着一笔分外的本錢，并且，若是脱敏處置欠好，数据的价值也會大打扣頭，乃至底子没法利用。

但若是按照現實需求搭建一些不包括隐私信息的数据，便可在分身隐私庇护的条件下确保数据的可用性。

在美國和欧洲，合成数据已是一個很大的財產了，但在中國，合成数据還處於萌芽阶段，此中有一個首要的缘由是：

美欧國度在文化和法令层面城市對隐私庇护比力讲求，是以，企業不能不經由過程采纳合成数据来防止高度依靠真實数据所带来的危害；而在中國，持久以来，不管在文化层面仍是法令层面，隐私都没有遭到足够的器重，以是，企業可以“肆無顾忌”地利用真實数据，這也致使了中國缺少合成数据成长的泥土。

但環境正在產生變革。一方面，在中國，平凡個别關於隐私庇护的权力意识在醒觉；另外一方面，法令层面也不容许企業任意滥用各類隐私数据了。

单從隐私庇护的角度斟酌，海内公司也将愈来愈多地低落對真實数据的依靠水平。

除图商等少少数有天資的公司，大大都公司都没法經由過程路采获得真實数据的方法来绘制高精舆图，為了避開這一問题，不少公司推出了“去高精舆图”方案，但這一方案對公司的前交融算法能力、规控算法能力都提出了新的挑战，現實上，真正能落地的公司其實不多。

但若能用合成数据来建造高精舆图，那問题就简略很多了。

在中國，咱們還没有看到有公司采纳合成数据来建造高精舆图，但在美國，已有了雷同的先例了。

2021年11月，在一場题為 Under the Hood的勾當上，Cruise仿真技能计谋主管 Sid Gandhi 表露，在向新的都會拓展時，他們没必要從新绘制都會舆图来跟踪車道變動或街道封锁等“不成防止產生的情况變革”，而是操纵一項名為 WorldGen 的技能，正确、大范围地天生全部都會，“從独特的结構到最小的细節”。

為了确保最好的世界建立，Cruise 斟酌了一天 24 小時分歧時候段的照明和氣候前提等身分，乃至體系地丈量了旧金山一系列路灯的光芒。

對付没法在實際路况下采集的特定場景，Cruise則利用 Morpheus。Morpheus 是一個可以按照舆图上的特定位置天生合成数据的體系。

据曾担當過Cruise仿真賣力人的光轮智能CEO谢晨说：

Crusie的 WorldGen和Morpheus其實不是用合成数据来做高精舆图，而是對真實世界做3D重修。但不管若何，将車道變動或街道封锁及“從独特的结構到最小的细節”都纳入3D重修中，重修後的信息元素已很靠近高精舆图了。

在美國，主動駕驶公司收集真實門路数据其實不會遭到如在中國這般严酷的限定，但Crusie依然采纳了合成数据，這给那些被高精舆图政策束厄局促了四肢举動的中國公司供给了一種新思绪。

别的，此後受数据合规相干律例政策影响的，就不限於高精舆图数据了，另有用於感知算法練習的数据回傳。

（這一點，九章在6月30日發的《“去高精舆图”跟“轻高精舆图”有啥區分？落地的挑战又是啥？》一文的第七章“感知算法練習或将遭到数据及格政策的影响”部門已做過具體的阐發，并在尔後也從其他平台公布的雷同内容中获得進一步印證，在此再也不赘述。）

可以想見，接下来，用真實門路数据做算法練習的難度是愈来愈大了——不是無法做，關頭是對車端脱敏的请求過高了，乃至可能還必要跟有測绘天資的图商互助。

受這一政策打击较少的公司，應當就是那些率先起頭拥抱合成数据的公司。

大師都清晰，主動駕驶體系很難完全代替人，最關頭的缘由是對各類corner case的應答能力不足，而應答能力的不足又源於数据量不敷。這恰是合成数据大有可為的處所。

大量的corner case，在真正產生前，没有人能想获得——预期功效平安第三象限内里的“unknown,unsafe”一類，以是没法在真實門路上做摹拟。這種corner case，無法經由過程基於人工法則的合成数据（WorldSim）来天生，也無法經由過程對真實世界做3D重修的技能（NeRF）来天生，但有望經由過程基於AIGC的合成数据来获得。

有的corner case，虽然人能想象获得“大要會怎麼”，但究竟结果太伤害（known,unsafe），以是，也不合适在真實門路上做摹拟。這類corner case，無法經由過程NeRF技能来天生，但可以經由過程WorldSim来天生。固然，也有望經由過程AIGC来天生。

有的corner case，算不上有何等unsafe，但在真實世界中确切很罕有。如雨、雾、雪和极度光芒等极度氣候跟某種极度交通流的组合。這些，也必要經由過程合成数据技能（同上，不包含NeRF）来天生。

（為什麼這一章會在多處提到了有很多corner case没法經由過程當下大热的NeRF技能来天生？這個問题的谜底，咱們将在本系列的第二篇文章中做具體的阐释。）

有很多corner case，真實数据中實在有的，但無奈真数据中corner case的密度過低，發掘本錢過高，這個時辰，工程師們若是没有足够的耐烦或“其實等不及”，則直接選擇合成数据即是最好计谋。

有了合成数据，主機廠或主動駕驶公司即可在几小時内摹拟数百万個行人（實際中，這凡是必要几個月才能完成）。這些摹拟可能涵盖分歧照明前提、方针位置和卑劣情况下（暴雨、极寒、浓雾等）的示例。或，可以插入随機噪声来摹拟脏污的摄像頭、雾水和其他視觉停滞物。

别的，真實数据因為高度受制於收集場景的限定，以是，corner case在样本的散布上也很難有用知足算法的需求。而合成数据，可以有针對性地生成份布状态更知足練習需求的corner case，這更有助於晋升算法的機能。

很多主機廠都宣称已量產上路的主動駕驶車型天天都在回傳数据，但這個所谓的“数据回傳”事實實現到甚麼水平、所谓的“影子模式”是不是真的落地了，一向是個形而上學。

以前只有為数未几的測试車的時辰，数据的問题相對於好辦，究竟结果，“回傳”可以經由過程硬盘来解决，挑選可以在云端做，但是，在量產車上，經由過程硬盘来解决数据“回傳”的門路走欠亨了，挑選出有用数据這個事情就要在車端完成。

在3月份的《主動駕驶数据闭環系列之一：抱负饱满，實際骨感》一文中，咱們提到，在量產車上收集数据會占用一些體系資本，好比计较、存储等。

理論上，可以假如计较資本、收集带宽等都不受限定，但在現實落地進程中，若何包管收集数据不影响量產車上主動駕驶體系的正常運行，比方，若何不影响主動駕驶體系的延迟等，這是一個必要解决的問题。

是以，在設計的時辰，就必要斟酌到收集数据等對主動駕驶體系運行的影响。

别的，在数据量出格大的時辰，数据回傳的本錢也會很是高。

单車逐日回傳的数据量大要為百兆级。在研發阶段，車辆总数可能只有几十辆或几百辆，可是到了量產阶段，車辆数目標量级可以到达上万、几十万乃至更多。那末，量產阶段，全部車队日發生的数据量就是很大的数字。据某数据辦理供给商供给的信息，某造車新权势每一個月仅用来做数据回傳的流量费就高达“大几万万”。

另外一方面，急剧增长的数据量還给存储空間和数据處置的速率都带来了挑战。

量產以後，数据處置的延迟必要和研發阶段連结在统一個量级。但若底层的根本举措措施跟不上，数据處置的延迟就會跟着数据量的增加而响應地增长，如许會极大地拖慢研發流程的進度。對付體系迭代来说，這類效力的低落是不成接管的。

一名業界專家奉告九章智駕：

今朝，咱們尚未看到哪家公司具有處置量產車上回傳的大范围数据的能力。即便是某家在数据闭環层面做得比力前沿的造車新权势，即即是每辆量產車天天只回傳5分钟的数据，他們也難以應答如许的数据量，由於當前的存储装备、文件读取體系、计较东西等都還没法應答极大的数据量。

要應答愈来愈大的数据量，底层的根本举措措施和平台的設計都必要响應進级。

工程l團队必要開辟完美的数据访存SDK。因為視觉数据、雷达数据的文件尺寸都很是大，数据的拜候、盘問、跳转、解码進程都必要效力足够高，不然會大大拖慢研發進度。

若是能做到尽量多地利用合成数据来摹拟一些場景，只有在合成数据没法知足请求的時辰再回傳真實数据，即“非需要，不收集、不回傳”，那跟数据收集、回傳和存储相干的本錢就會大幅度降低。

車端数据在回傳到云端後，必要先做好標注後才能利用。据称，在大模子用於数据標注後，已有高达80%的数据標注可以經由過程主動化的方法来完成，但另有最少20%触及繁杂場呼啦圈,景、多方针、语义繁杂的数据必要由人工来完成“精標”。

當下大热的BEV+Transformenr技能，對数据標注的需求進一步上升。

以往，必要標注的主如果前視摄像頭的数据，2D 標注框+ 3D 位置就已是標注的全数内容了；而今，在BEV+Transformer方案下，所有相干的摄像頭（可能跨越7個）能看到的所有停滞物、車道線、車辆的活動状况都必要對應的標注，而且還要同一在统一坐標系下，另有大量的语义信息也必要標注，而標注本錢，也從以前的每帧10元摆布上涨到每帧30-40元，乃至更高。

人工標注的事情量远超外人想象。据毫末智行数据智能科學家贺翔在6月尾的一場主動駕驶公然课上的说法，一张關於十字路口的照片，要把位置、氣候、拥堵状态、其門路利用者、告白牌等各類元素都標注出来，并能在此根本上做場景挑選，可能100個標签也不敷用。

假設車上有8-12個摄像頭、1-2個激光雷达，10秒钟的視频内里可能有上千张图片，標注本錢得几千元。

一般的檢測框，一分钟的内容，標注必要一小時摆布；點云朋分，一分钟的内容，標注必要几個小時；但對更繁杂的使命做4D標注，可能一分钟的使命必要花跨越一天時候才能完成。

後面要做端到真個算法練習，在给這一帧的内容打標签時，還得斟酌该標签若何跟其他帧的内容做联系關系。

总的趋向是，主動駕驶行業對標注的请求愈来愈高了，這象征着，投入到一分钟視频上的標注本錢愈来愈高了。

在7月尾的一場沙龙上，某主動駕驶公司COO称，在数据處置的岑岭期，他們曾同時跟跨越100家標注公司互助，不但直接本錢很高，并且，供给商辦理的繁杂度也极高。

做人工標注，如安在数据量极大的環境下，包管標注成果的正确率、一致性也是一大挑战。想象一下，標注工人持续几天坐在辦公桌前做一样的事情時候，几近就像在工場的傳送带上事情同样，在這類情景下，ta必定會時時時地犯一些奇异的毛病。

若是標注的成果不许确、不完备，那基於這些数据練習出来的模子的機能就會遭到影响。

但合成数据自带图象和激光雷达的“真值”標签，包含 2D 和 3D 鸿沟框、语义和實例朋分、深度、光流、活動矢量、關頭點等。而且，對被遮挡行人/物體這類很難做人工標注的場景，合成数据也能够自带完善標签。

在本錢方面，與必要標注的真實数据比拟，自带標签的合成数据也具备较着上風。

合成数据辦事商AI.Reverie 認為，人工標注一张图片可能必要6美元（這還不算数据回傳、挑選及存储的本錢），但經由過程合成数据技能天生一样一张自带標签的图片只必要6美分。

诚然，合成数据没法彻底代替真實数据，但合成数据利用率的上升，對真實数据的依靠度降低，便可以削减由於真實数据“欠好用”而發生的不需要的本錢。

全世界数据標注龙頭公司Scale AI已灵敏地意想到了這一趋向。

曩昔几年，算法練習對数据標注的饥渴需求，造成為了一個颇有意思的征象是：主動駕驶公司和主機廠的主動駕驶营業都没挣到錢，但做数据標注的公司却挣到錢了。全世界数据標注龙頭Scale AI乃至是以而估值跨越73亿美元。

不外，Scale AI也已意想到，跟着合成数据的利用逐步深刻，数据標注营業的营收會遭到不小的打击。是以，在2022上半年，该公司推出了一個名為Scale Synthetic的合成数据平台，颁布發表進入合成数据財產。他們乃至称，合成数据是本身在2022年的“重要使命”。

数据標注龙頭進军合成数据，逻辑是“在他人能干掉我以前，我先把握他們的技術，大不了本身干掉本身”，這算是一場自我革命了。

作為被合成数据“革命”的工具，数据標注公司踊跃拥抱合成数据，這又從背面進一步印證了自带標签的合成数据比拟於真實数据的上風。

看起来，各家公司手上都堆集了很多真實数据，但真實数据用来做仿真，有個很紧张的痛點是：复用性差。

好比，在做路采的時辰，車辆的芯片平台、傳感器架構及制動體系是怎麼的，那我在仿真體系里做測试時，車辆的這些硬件設置装备摆設也必需跟路采時所用的車辆設置装备摆設一致。

某东西链公司的仿真賣力人说:

在用真實門路数据做仿真的環境下，一旦傳感器的位置或型号有變動，這一组数据的价值就低落，乃至會‘作废’。

究其缘由，真實数据在使历時没法调解任何参数，而只能做简略的“回放”——也被称為“回灌”（LogSim）。

复睿微電子仿真賣力人张峻川在一次公然分享中提到，WorldSim（用合成数据做仿真）像在玩遊戲，而LogSim（用真實門路数据做仿真）則更像是片子，你只能看，無法介入，無法天生與原始記實分歧的傳感器数据，是以，LogSim自然無法解决交互性的問题。

可以想見，無法解决交互問题的LogSim，只能用於測實验證一個現成的算法“是否是OK”，却不克不及用於重新来練習一個算法。

确有一些公司曾測验考试把收集到的場景内里的元素都完成参数化，但今朝尚未成熟的案例落地。

但合成数据自然具备可编程性，不少参数都是可以调解的，是以，数据复用的難度将大幅度低落。

（合成数据的可编程性或泛化能力、可复用性，因AI的介入度而有所分歧，总的来讲，AI的介入度越高，合成数据的泛化能力越强，這一點，咱們将在本系列的第二篇文章中做更具體的阐發，在此暂不赘述。）

丰田及其投資的合成数据公司Parallel Domain都将合成数据称為 Progra妹妹able Data即“可编程数据”。Parallel Domain在其官網上称：“咱們可以對咱們但愿在練習数据中得到的任何输出举行编程......經由過程组合参数扫描，為每辆車天生数据，乘以每種照明前提、每種氣候前提，每種油漆色彩。”

英伟达在對外先容合成数据時常常提到一個词“域随機化”（Domain Randomization），即經由過程在合成数据的天生進程中引入各類随機性和變革，使得天生的数据可以或许笼盖更遍及的場景。

英伟达说的“域随機化”，包含扭转某個特定工具的色彩、光照、纹理、材質、變更等多種属性，也包含添加和點窜傳感器的位置和参数，和界说其他門路利用者的活動状况。别的，扭转一天的時候、太远的位置、温度、門路的湿度，也是“域随機化”的一部門。

在抱负的環境下，用轿車去收集的数据，若是把視角调解成卡車視角，那這一组数据便可以用於練習卡車的感知算法。

專注於人類数据的Synthesis AI乃至可以或许以编程方法自界说人的脸部数据集。為知足DMS標的目的客户的需求，Synthesis 生成為了约莫 100,000 個涵盖分歧性别、春秋、體重指数、膚色和種族的“合成人”。

經由過程该平台，数据科學家可以定制化身的姿式和頭發、脸部脸色、注释標的目的、發型、打扮（比方面具和眼镜）和情况方面（比方照明，乃至虚拟相機的“镜頭類型”）。

對合成数据龜山通水管,做编程的最大意义是，可讓co抹茶生,rner cace均可以泛化出数千個“變體”，由此，練習出来的模子會具备很强的鲁棒性和泛化能力，從而更易顺應真實世界中的各類變革和不肯定性。

别的，合成数据天生進程的参数化，使呆板進修工程師可以或许更好地節制每次迭代，并讓数据集中已存在内容的更有可追溯性。

7、經由過程随機化及调解場景散布来解决“過拟合”的問题

在進修合成数据的進程中，笔者注重到，很多開辟者都反應，基於真實数据練習出的模子，很轻易呈現“過拟合”（Overfitting）的問题。

所谓過拟合，指模子在練習数据上表示杰出，但在新的、未見過的数据上表示较差的環境。當模子過分拟應時，它進修到了練習数据中的细節和噪声，而没法泛化到新的数据上。

那末，真實数据是否是要比合成数据更有可能激發模子的“過拟合”問题？

光轮智能CEO谢晨認為：

严酷地说，“過拟合”跟練習数据是真實数据仍是合成数据并無必定瓜葛，真正致使“過拟合”的，是練習数据集中的場景散布跟真實世界纷歧致，致使数据集可能没法捕获到真實世界的繁杂性和多样性——而無論這個“数据集”到底是真實数据集仍是合成数据集。

谢晨举例说：

好比，不少主動駕驶體系在晚上或雨天表示不太好，這是由於他們當初做練習数据收集的時辰，采的大部門都是白日和好天的数据。

英伟达仿真產物司理Matt Cragun也做過雷同的诠释：

若是大部門真實数据都是在白日前提下采集的，那末在该数据集上練習的算法在夜間或弱光前提下可能表示欠安。

再好比，仿真公司Applied Intuition發明，某個感知模子很難正确地檢測到骑自行車的人和起摩托車的人，缘由在於，在用於練習這個模子的真實数据集中，骑行者呈現的频率远低於車辆和步行者——前者呈現的频率不到後者的1/170。

那末，该若何防止“過拟合”的問题呢？笔者從ChatGPT 3.5上获得的對策有8条，以下图所示：

此中，跟練習数据有關的對策是以下两条：

1. @經%1P7lG%由%1P7lG%過%1P7lG%程對練%Nmek1%習@数据举行扩充，如随機扭转、平移、缩放、翻转、添加噪声等操作，增长練習样本的多样性；

2.對输入数据举行规范化或尺度化，使其具备類似的標准和散布，可以帮忙模子更好地進修和泛化。

鉴於真實数据是“死的”，没法编程，是以，要對真實数据做如上操作，根基上是不太可能的。以是，更易用来解决“過拟合”問题的練習数据，根基只能是合成数据了。

英伟达重要經由過程合成数据的域随機化来降服“過拟合”問题。所谓域随機化，即在合成数据的天生進程中引入各類随機性和變革（這也是對合成数据做泛化的一種特别情势），使得天生的数据可以或许笼盖更遍及的場景。

好比，英伟达曾在測试中發明，某個基於合成数据練習出来的模子未能在大大都真實图象上充實檢測到門，由於它在摹拟中過分拟合了門的纹理。為了避免門的纹理過分拟合，英伟达仿真l團队在 30 種分歧的類木纹理中對門的纹理利用了随機化。

與此雷同的是，為了使模子對墙壁上的 QR 码等噪声具备鲁棒性，英伟达仿真l團队還利用了 DR overtexture，将墙壁的纹理随機化為分歧的纹理，包含 QR 码和其他合成纹理。

再好比，英伟达還發明，某個基於合成数据練習的模子在低温照明前提下有不少误報，其缘由在於，仿真情况中的照明連结不乱和恒定，而在實際中，照明前提多種多样。為防止同類問题再次產生，英伟达仿真l團队在合成数据中的天花板灯上添加了光温域随機化，以随機化灯光的挪動、强度和色彩。

曾担當過英伟达主動駕驶仿真主管的谢晨也認同英伟达在解决“過拟合”問题上采纳的思绪。

谢晨弥补说：

光轮智能在出產合成数据的進程中，對峙的一個原則是“守正出奇”，即在客户出格必要的增量数据方面，他們依照客户的请求做定制；在客户不出格提请求的處所，他們尽可能讓各類場景的散布切近真實世界。

好比，将高速路和都會門路的散布比例、白日和晚上的散布比例、雨雪氣候和好天的散布比例設置得尽可能跟真實世界一致。

基於這類数据練習出的模子，就不太轻易呈現“過拟合”的問题。

咱們在上文中提到，针對基於真實数据練習出的感知模子很難檢測到骑行者的問题，Applied Intution公司将其缘由归结為“骑自行車和骑摩托車手的人在数据集中呈現的频率远低於行人和汽車”，然後，他們采纳的對策是，往練習数据集中添加一些骑行者呈現频率比力高的合成数据。

Applied Intution将本来基於100%的真實数据集練習出来的模子設定為“基線模子”，然後在實行中發明，與基線模子比拟，将合成数据跟真實数据夹杂在一块兒做練習，感知模子對骑行者的辨認成果获得了显著改良。

Applied Intuion進一步發明，先在合成数据上對模子做预練習，然後再在 100% 的真實数据上對其举行微调，則模子對骑行者的辨認能力可显示出出格较着的晋升——不管合成数据在練習数据集中的占比是几多，基於该数据集練習出的模子在機能上始终優於基線模子。

（按類此外 mAP 分数。與 100% 真實世界数据的基線比拟，夹杂練習和微调實行提高了骑行者的 mAP 分数。图片摘自Applied Intution官網。）

鄙人方的两组图片中，左邊的图片显示，仅按照真實世界数据練習的基線模子没法檢測到距自車较近的骑行者，而右邊图片則显示，按照合成数据举行预練習的可以模子樂成檢測到该骑行者。

可以看到，虽然“過拟合”跟練習数据是真實数据仍是合成数据并無必定瓜葛，但因為合成数据更易解决“散布比例”的問题，是以，整體上来讲，合成数据确切更有可能解决“過拟合”的問题。

在谈到“過拟合”的话题時，谢晨進一步诠释说：

“過拟合”是用一個低维的工具去打高维時比力常見的問题，在本色上，這實際上是一個小模子的問题，日後看，跟着参数目愈来愈多、模子愈来愈大，“過拟合”的問题會愈来愈轻。

谢晨提到，Waymo以前仅感知就有200多個模子，但接下来可能會用1個大模子管辖所有這些模子，等大模子出来了，“過拟合”的問题就會大幅度削减。

鉴於真實数据不但量不敷，且利用難度大，對Waymo来讲，要@練%Nmek1%習大模%73l25%子@，就必需依靠合成数据。据悉，Waymo近来规劃将合成数据的利用率晋升1000倍。

前段時候，在進修合成数据的進程中，笔者忽然想到一個問题：難道，Waymo和Cruise這些美國的無人駕驶公司，對峙“一条道走到黑”、死磕L4的最大底氣是，他們在赌合成数据？一旦合成数据對晋升算法结果的价值能跟真實数据相媲美，他們就不消再担忧“数据不敷用”了？

開初，這只是笔者片面的猜想，但随後，笔者也带着這一猜想跟曾担當過Cruise仿真主管的谢晨做過一些交換，谢晨是承認笔者這一猜想的。

固然了，對真實門路数据不足的L4公司来讲，用合成数据去弥补、取代或“倾覆”真實数据，或多或少总會有一些無奈的成份在内里。那末，像光轮智能如许的第三方合成数据辦事商，是若何给合成数据定位的呢？

谢晨称：

他們其實不筹算用合成数据代替真實数据（認可合成数据也没法代表示實世界的多样性），而是用合成数据及相干技能来晋升真實数据的利用效力。

在主機廠或主動駕驶公司把真實数据提供應他們後，他們可以拿這些数据去基於NeRF技能做3D重修或泛化，而且加之Sim2Real（用Diffusion Model来晋升数据保真度），這就把真實数据转換成為了合成数据；然後，再在仿真體系里将這些合成数据跟真實数据“混搭”，經由過程這類“混搭”，以真實数据為主的数据集也間接地具有了“泛化能力”。

究竟上，重修後發生新的数据，而且真實数据“混搭”，也是真實数据實現“泛化”的最有用方法。

經由過程這類“混搭”或泛化，真實数据的利用效力将大幅度上升。

真實数据跟合成数据“混搭”的比例，英伟达等多家公司實践的成果是，7：3（即合成数据占30%）的结果比力抱负。

7：3這個比例，至關於在真實数据的根本上再增长了跨越40%的数据量，但因為新增的那40%都是合成数据，有很强的泛化能力、可以做N屡次分列组合，那末，终极用於算法練習的corner case的数目就不是增长了40%，而是增长了几十倍、乃至是几百倍！

因而可知，合成数据不但不是真實数据的“竞争敌手”“倾覆者”，反而還可以给真實数据“加杠杆”“赋能”。

若是能操纵好合成数据這個“杠杆”，其他主機廠或主動駕驶公司也有前提具有“特斯拉量级”的corner case数据。除蟎洗面乳,

在聊到這生髮,里時，笔者又姑且想到了一個問题：如许看来，合成数据公司跟傳统做LogSim和WorldSim的仿真公司其實不是竞争敌手，而多是互助火伴？

谢晨说：

没错。咱們實在已跟一些做东西链的公司谈互助了，他們手上有一些真實数据，但這些数据的3D重修、泛化等事情，會交给光轮智能来做。

9、有望“搞定”感知的仿真

當前，主動駕驶行業做的仿真，根基上仅限於规控的仿真，由於，感知的仿真其實太難做了。但曩昔的两個多月里，笔者在進修合成数据時發明，几近所有做主動駕驶合成数据的公司，城市拿仿真感知的仿真来举例。

看起来，跟着合成数据的日渐成熟，困扰主動駕驶行業好久的感知困難终究有望获得冲破了。因為规控的仿真已相對於成熟，那一旦感知仿真冲破，端到真個仿真就没多大停滞了。

這個主题比力繁杂，一两段话也说不清晰，咱們将在本系列的第四篇文章中做更具體的阐發。敬请等待。

10、使仿真可以真正辦事於研發

在曩昔的一两年里，特斯拉、Waymo、Cruise與英伟达這些公司的仿真部分，辦事的工具起首是公司的研發部分，然後才是測试部分；而海内大部門公司的仿真，辦事的工具仅限於本身或客户公司的測试部分。

這類區分暗地里的缘由在於，在特斯拉、Waymo、Cruise、英伟达這些公司的仿真，既可以用来做算法的測實验證，也能够用来做算法練習；而海内大部門公司的仿真，只能用来做測實验證。

又是甚麼致使了這類分歧呢？對合成数据的拥抱水平、所利用的合成数据的可用性。

咱們在上文已提到過，真實数据没法泛化、缺少交互能力，以是，基於真實数据的仿真，只能用於對算法的逻辑做測實验證，而不克不及用於算法練習。

那末，基於合成数据的仿真，能用来做算法練習嗎？這個也得看合成数据的質量了——只有同時知足“泛化能力足够强”和“保真度足够高”這两個尺度的才可以。

基於WorldSim的合成数据，保真度没法包管，泛化能力也一般；基於當下大热的NeRF技能天生的合成数据，保真度是没甚麼問题了，但泛化能力也仅局限於“调解視角/傳感器的安装位置”......是以，這些虽然也會被用於算法練習，但结果其實不是很抱负。

不外，跟着AI大模子日渐成熟，而且，大模子在合成数据天生進程中的介入度愈来愈高，合成数据逐步具有了同時分身保真度和泛化能力的可能性。好比，由Diffusion Model和World Model天生的合成数据。如许的合成数据，便可以用来做算法練習了。

若是能進一步将AI大模子跟NeRF連系起来，那合成数据在算法練習方面可阐扬的空間就更大了。這一線路或可帮忙那些真實数据未几、但合成数据技能足够强、而且拥抱合成数据也足够踊跃的公司获得必定的竞争上風，最少是削减他們的劣势。

合成数据，也许恰是一向被外界質疑為“数据不敷”的Waymo、Cruise和Zoox這些美國公司勇於“一条道走到黑”、死磕L4的底氣地點吧。究竟上，這几家公司一向将合成数据作為其技能栈的焦點構成部門之一。

海内的主機廠中，蔚来經由過程踊跃拥抱合成数据，已起頭用仿真来支撑研發。接下来，跟着合成数据的价值博得愈来愈多的承認，應當會有更多主機廠拥抱這一趋向吧。

而對第三方仿真公司来讲，只有在辦事工具從客户公司的測试部分拓展至研發部分，能對算法練習做出本身的進献時，他們才算是最大水平地實現了本身的“人生价值”。

结语：

咱們在前面已屡次提到多，数据闭環能力，是主動駕驶下半場的“入場券”。首要的话不嫌多，在這里可以再反复一遍。

合成数据是数据闭環系统的首要構成部門，而且，合成数据不但具有不少真實数据不具有的上風，并且還可以给真實数据“加杠杆”，是以，咱們也能够認為，那些率先拥抱合成数据的公司，即是率先拿到了主動駕驶的“入場券”。

而那些合成数据辦事商，則至關因而在出產和贩賣主動駕驶下半場的“入場券”。

供给這一入場券的公司，在外洋，除英伟达如许的巨擘外，另有Applied Intution、Parallel Domain、Cognata、Datagen等草創公司。

此中，Applied Inntution建立於2017年，但该公司早在2020年就已红利;在2021年末，该公司的估值到达了36亿美元;2023年5月，该公司以7000万美元現金收購了無人駕驶卡車公司Embark。

该公司的营業仅聚焦於主動駕驶這個单一赛道，能在建立三年内就红利，并在尔後估值飙涨，乃至還能拿出足够的現金来收購其他公司，也足見美國主動駕驶駕驶公司及本錢市場對拥抱合成数据的踊跃水平。

在海内，baidu、华為云及51World等公司近年一向在摸索合成数据，而在近一两年新建立的公司中，光轮智能是一個典范代表。

開辦光轮智能以前，谢晨曾前後担當Crusie仿真主管、英伟达主動駕驶仿真主管、蔚来主動駕驶仿真主管，在各家公司都履历了基於合成数据的仿真從0到1的進程。今朝，光轮智能焦點技能l團队的几名主干成員也有雷同的履历。

固然建立比力晚，但建立晚有一個上風就是，光轮智能充實吸取了其他公司在主動駕驶仿真方面的一些履历教訓，因此，從一起頭就避開了不少坑。谢晨認為，仿真要做好，必需“虚實連系”，而且，通鼻貼,比力要要将仿真跟AI深度連系。

關於仿真跟AI的連系，谢晨说：

今朝，大大都公司的做法是用AI来辅助仿真，而咱們的思绪在則是用仿真来辅助AI。

那末，事實甚麼是“虚實連系”，甚麼是“用AI辅助仿真”，甚麼又是“用仿真辅助AI”呢？這些内容，咱們将在本系列的第二篇文章中做更具體的開展。敬请等待。

頁: [1]

新北市學車交流論壇's Archiver

自動駕驶合成数据科普一:不做真實数据的“颠覆者”,做“杠杆”