自動駕驶的ChatGPT時刻来了?

admin · 發表於 2024-8-21 17:20:14

6月15日，第十六届中國汽車蓝皮書論坛举行到次日，在當全國午的智能駕驶專場，驭势科技结合開創人、董事长兼CEO吴甘沙带来《面临或然的大模子ChatGPT時刻，主動駕驶創業公司若何應答》的主题演讲。

他提出，“@或%s83xk%许大模%73l25%子@是真實的主動駕驶的结局。”马斯克说特斯拉的12.4版赋性能晋升5倍到10倍。這是不是象征着它在模子的范围上有了一次庞大的晋升？数十亿到百亿参数的多模态模子是不是會呈現出現能力？

吴甘沙暗示，“若是特斯拉失败了，就是百亿美金的投資以後仍是没有收敛，它的FSD增加曲線到了必定水平起頭走平的话，它可能面對着股市的惊天压力。可是若是它樂成了，或许這個赛道上的巨细公司會被甩開。”

他在演讲中谈到了作為主動駕驶創業公司，驭势科技的應答计谋。

如下是吴甘沙的演讲實录，有删减。

很是感激汽車贸易评論的约请，很歡快再次来到蓝皮書論坛。列位同業，列位媒體朋侪，大師好。由於時候瓜葛，我只讲两個問题：第一，大師说今天咱們面對着大模子主動駕驶的ChatGPT時刻，它會不會產生；第二，作為主動駕驶的創業性公司，该若何應答。

ChatGPT時刻来了？

咱們是否是真的面對如许的ChatGPT時刻？

這是特斯拉車主自觉上螞蟻藥,傳数据的一個统计曲線。這是一個都會FSD的数据，在11.4到12.3之間呈現了一個快速晋升的征象。固汽車補漆,然這個数据随時在變革，可是根基上200多千米才會有一次“伤害接收”。

咱們看看海内，海内比力领先的小鹏。何小鹏说得比力實诚，高速上可以或许到达1000千米1次接收，都會里還不到10千米1次接收。

大師這麼初看，感受特斯拉确切是在快速地拉開差距，可是咱們再细心看一下，看它的12.3.6，實在它的一般接收是31千米1次接收，高速是134千米1次接收。

一方面咱們可以或许看到它在快速地晋升，可是若是咱們區别伤害接收和平凡接收，會發明它平凡接收的数据也不是遥遥领先。更况且，中國的路况要比美國繁杂不少。

大師可以看看2015年的数据，每10万辆車每一年致使几多条性命，中國實際上是远远跨越美國和德國，也就是说中國的交通路况繁杂不少。你比拟31千米一次接收和不到10千米一次接收，也并無说特斯拉就是遥遥领先於小鹏。

以是，到今朝為止，咱們認為可能没有法子得出很正确的结論，除非咱們今天看到消息说特斯拉10台FSD的車要在上海跑了，那如许才可以或许防止關公战秦琼的如许一種比力。

那為甚麼咱們仍是要問這個問题，就是它是否是面對着一個冲破的時刻呢？由於咱們近来看到马斯克的一些面向投資人的说法：

第一，在曩昔這两年傍邊他們的算力晋升了10倍以上，晋升了一個数目级，畴前面5760张A100的Dojo，到本年年末可能會增长到8.5万张的H100。這但是上百亿美元的投資。

第二，練習数据晋升了10倍以上。由於Dojo方才起頭的時辰是100万個10秒的視频，可是近来一次接管采访已到达了几万万個視频。

第三，車端算力差未几晋升了5倍，從144TOPS的HW3.0（這個HW3.0只可以或许跑1亿上下的参数）到如今720TOPS 的HW4.0，并且针對Transformer做了特别的優化。

以是，咱們不禁得猜測它是否是在模子的范围上有了一次庞大的晋升？從今天的1亿参数到几十亿的参数，它會不會呈現出現能力（触類旁通，举一反三等）？這是咱們如今出格等待要看到的。

马斯克在5月份预報了一下，说他們的12.4版本可以或许晋升5倍到10倍。以是，連系這邊的這些数据，就是練習算力晋升10倍、数据晋升10倍，模子晋升10倍，機能酿成了10倍。以是，這個真正產生是很是成心思的。

并且，咱們比拟一下大模子的練習，好比前面是10万亿個token，几万张卡練習100天，做预練習，再做有專家监視下的精调（Supervised Fine Tuning），最後是人類反馈的强化進修（RLHF，Reinforcement Learning from Human Feedback)。

如许的例子跟咱們人學開車出格雷同。咱們人學開車前面也有一個预練習的進程，前面18年没有學開車，只是學知识，形成為了我的世界觀，我的認知模子。這是18年的社會經历，就像一個预練習的進程。然後到了18岁，我就去駕校找了一個锻練来教我怎样開車，這又像專家监視下的Fine Tuning。然後我拿了駕照本身買了車，我重新手上路邊開邊練，磕磕碰碰，熟能生巧，渐渐地就開得愈来愈好了。這又像不竭反馈下一個强化進修的進程。

以是，@或%s83xk%许大模%73l25%子@是真實的主動駕驶的结局。咱們今天说的那末多的corner case可能其實不是终极靠人力往来来往穷尽，而是靠如许的一種法子往来来往穷尽。

2017年我跟旭东（Momenta CEO曹旭东）加入CVPR集會的時辰，咱們也在谈端到端。那時我就有一個設法，大模子就像咱們的體系2，针對一些最難、少見交通状态，必要高算力、高功耗去思虑，最後去解决。可是端到端像體系1，它可以類比咱們人類駕驶的本能模式。咱們今天绝大大都時候開車都是脑筋里想着其他的事，听着音樂，以一種极低功耗、极低算力的方法開車，這是端到真個模式。不解除這個多是咱們将来主動駕驶實現的结局的一種模式。

固然若是特斯拉失败了，就是百亿美金的投資以後仍是没有收敛，它的FSD增加曲線到了必定水平起頭走平的话，它可能面對着股市的惊天压力，由於究竟结果一年賣個200万台車可能不值那末高的估值。可是若是它樂成了呢，或许這個赛道上的巨细公司會被甩開。這個多是咱們下面要拭目以待的。

差别化竞争

咱們因此L4商用車為主的一家公司，可是從2016年建立以来，咱們一向有一支l團队在做乘用車。固然這個l團队的范围很小，适才旭东说1300小我，咱們不到十分之一。這麼綿綿冰,小的l團队，咱們该怎样做乘用車，今天也跟大師做一個分享。

像FSD如许的投資烈度毫無疑難咱們没有法子去做，以是咱們做差别化竞争，去對標EAP，做出来极致的智价比。好比咱們在10万元的車上面能不克不及做到EAP。

甚麼是EAP？大師可以看到特斯拉的智駕就是三個级别，最上面的就是根本版AP，中心阿谁是EAP，下面是FSD。這個EAP就是咱們常常说的高速NOA，行泊一體，它的報价要到32000元，而FSD是64000元。

今天的FSD或都會NOA是在從90分到99分的進程傍邊，這内里必要庞大的投資。可是另外一方面，EAP這32000元錢的工具，高速的NOA、行泊一體再加之通勤影象行車，可能在99分到99.99分的進程傍邊。那末能不克不及把這套體系做到3000元錢而不是32000元錢？這可能又是一個值得去摸索的處所。

就是一方面把體验從99分做到99.99分，另外一方面要把本錢极大地低落。咱們在這内里也有必定的摸索。

這是咱們乘用車的一条冰淇淋機,產物線，最底端就是一體機。一體機這条產物線根基上都是基於地平線的，底端就是J2的，200万像素、800万像素。我适才说的就是中心的產物，行泊一體。上面實際上是L4跟都會NOA一块兒想要去構思的预節制器的形态。

中心有一個產物，本錢是极低极低的，它是J2再加之E3，可以或许實現高速的NOA再加之基於超声波雷达的APA，就是一個根基的行泊一體，它是极致的本錢。

再往上這是J3再加之E3，咱們把它叫做“极致的智价比”，它在這個根本上加之一個交融的APA，此外再加之一個影象行車。然後在這個根本上又有一個變種，中心再加之TDA4，這内里就是高速领航加之影象行車以外，再加之影象停車。然後再到上面，就再加之都會NOA。這是這麼一個產物線。

可是咱們采纳极高模块复用的設計法子，如许使得咱們跟主機廠和Tier1互助的時辰可以有很是機動的身材。可以供给算法或軟件模块，可以供给总體的軟件包和辦事，也能够把硬件的参考設計给咱們的互助火伴，或供给軟硬件一體的方案，以是，它可以很是機動。咱們根本版的行泊一體和极致智价比的行泊一體，這两個產物都是在小几千块錢，可是可以或许供给對標EAP的一種體验。

在這個進程中我也先容一下咱們的法子論。實在咱們最先對這個l團队的请求就是模块化，軟件高度模块化可复用，硬件可以支撑各種的计较平台，從J3到TDA到恩智浦到英飛凌，包含咱們國產的芯驰等等。总结一下，就是硬件可以或许适配各種的品牌，軟件高度模块化。

可是咱們前七年根基上是两条線路，就是行車和停車都是分隔去做的。然後就做了這麼一個行泊一體的軟件架構，這是全部從新起頭架構的產物。這個產物咱們也是基於SOA，進一步晋升開辟效力和功效的可扩大性。

同時，咱們還做了不少的事情。這里我先容一點。

由於像如许极致智价比的平台，一個J3再加之一個E3，它除感知可以或许用神經收集，其他的很難用数据驱動的法子，很難用神經收集。可是若是今天基於人的法則的這類法子，實在有不少数据没甚麼用，由於人来不及處置，以是就會操纵效力低。可是若是你應用数据驱動的法子，用神經收集，它的平安品级又比力低，它只能到达QM，没有法子到达更高的平安品级。

Joseph Sifakis這位老兄也是图灵奖得到者，他實在問了一個問题，為甚麼主動駕驶的車那末難？會商會商着终极仍是走向一個標的目的，就是基於模子、基於法則，再加之数据驱動神經收集的法子举行糅合,如许的法子能不克不及在极為低真個芯片上跑起来。

咱們拿方针選擇作為一個案例，大師可以看到咱們在一個MCU上面可以或许跑出来這麼一套體系，一方面它是一個基於数据驱動的LSTM（Long Short Term Memory,长短時間影象）的收集，另外一方面是基於法則，再加之一個synthersizer，這麼一套體系。神經收集能跑在一個MCU的core上面，然後法則和synthesizer跑在此外一個core上面。固然神經收集的是QM，此外一個是rule-based，是ASIL D。

這些交融起来咱們可以或许综合到达ASIL D功效平安品级。同時，它對代码空間、数据空間的占用，實際上是在几百kb的级别，可以或许到达26262的認證。
治療靜脈曲張,
咱們能不克不及經由過程一套交融的體系，一方面满够数据驱動，知足更高的機能，此外一方面又是极致的本錢，并知足SOD的请求。

此外的案例，咱們經由過程天生性匹敌收集，好比在数据選擇、在规控這些今天咱們的数据不是出格多的環境下，可以或许不竭地經由過程天生性的匹敌收集来天生更高質量的数据。

這里举一個案例，就是很小的神經收集的算法和基於法則的方法举行交融，那它要去處置的就是一辆車，它在cut-in。大師可以看到基於小神經收集的可以或许比基於法則提早2秒多就可以發明cut-in的用意。总的来讲可以或许大幅削减假阴性，此外把recall可以晋升50%。

這套體系咱們也用在了不少其他的功效上，好比，這是一個纯視觉的AEB，咱們也是拿到了五星+的尺度，可以或许實現85千米時速的一個刹停。

跟從第一梯队

咱們仍是要紧跟第一梯队，在算法上紧跟前沿，而且仍是可以或许包管可模块化交付。

曩昔這几年，特斯拉在BEV Transformer，包含像這類無图的Lanes Network，包含從单帧到一個視频流，包含到Occupancy Network(占用收集)等等方面有了不少立异，下一步做各個分歧模块的神經收集化，最後實現总體的端到端大一统的收集。

在這些算法方面咱們也一向在跟從，像BEV+Transformer+ Occupancy Network如许的收集，咱們做的一套體系，近来在一個國際集會Robo Drive Challenge上面拿到了第一位。咱們有不少如许的算法，它從這個機能上面看仍是很是不错的，這些算法咱們均可以把它們作為模块来举行交付。

為大客户辦事

創業公司没有法子投入那末多的GPU，也没有那末多的数据，可是谁有？咱們的大客户可能有，特别是一些大的OEM，稀有据，也有算力。咱們也能够為他們供给像数据闭環、運维平台、大算力練習平台的軟件辦事。

由於咱們做L4，大師晓得L4實在必要出格好的闭環，由於它必要快速地迭代。以是，咱們在車端有一套黑匣子的数据贮存體系（DSSAD），在云端也有一套不错的主動駕驶的練習平台。

出格是從客岁起頭，咱們也在把一些大模子的技能利用進去，場景理解、预標注、数据發掘等大模子。這是一個典范的做智駕公司或是OEM该有的平台。那末咱們可以做這類云真個container的交付，也能够做現實的一體機的交付。由於可能有些公司其實不但愿用云，并且它的数据量可能像這麼一個24-192卡的一體機，就够用了，那末咱們也能够交付如许的一體機，确保快速地摆設，落地即用。這是第一點。

第二是咱們的運维平台。運维平台我感觉比力有特點。為甚麼？L4的體系咱們是比力早去測验考试定阅辦事的模式的。就是我賣了這麼一個體系今後，由於這個體系内里加了一個AI司機，我每一年针對AI司性能够收一點工資，這就是一個定阅辦事。

可是這個定阅辦事若是你做得欠好，實在一方面你没有法子保障客户的得意度。假如说一辆車一天事情20個小時，24小時傍邊只有4個小時在檢验，20個小時99.99%的可用率，也就是一年只有差未几一個小時是没有在事情状况，這個请求很是高。

另外一方面，像L4的體系，好比一個激光雷达可能就几万块錢，一個域控又几万块錢，那一年的定阅费可能也就是几万块錢。若是说你不克不及有很好的一種運维平台，那你定阅辦事的這類模式终极是會亏錢的。以是，咱們做了一個很好的云辦事平台，如许的運维的能力也是可以输出的。

终极做一個总结，咱們這麼一個小l團队應當怎样去做乘用車的智駕。

第一，咱們身材很是機動，可以供给硬件参考設計、总體軟件包，或是单個模块的算法或軟件，或，咱們没稀有据和没有算力，咱們可觉得稀有据和算力的客户供给数据/云端辦事。

第二，咱們也有很是好的算法，一向在紧跟特斯拉的SOTA算法。咱們可以模块化交付咱們的算法模块，也能够交付总體的軟硬件一體的產物，或是軟件包再加之硬件的参考設計。

這個產物咱們就聚焦在EAP這類高速NOA再加之行泊一體，再加之影象行車的如许一種形态上。如许的形态咱們但愿做到极致的智价比，可以或许下沉到10万块錢的平台，咱們可以支撑Tier1或OEM把如许的產物打造出来。

這就是我分享的内容，感谢大師！

		自動登錄	找回密碼
密碼			立即註冊

自動駕驶的ChatGPT時刻来了?

瀏覽過的版塊