對话理想智駕l團队:什麼是自動駕驶的「终极答案」?

admin · 發表於 2024-8-21 18:28:31

履历了前面长篇累牍的布景先容以後，终究可以切入正题：借着采访抱负智駕l團队的機遇，来聊一聊「端到端」若何從理論，到上車？

抱负智駕研發副总裁郎咸朋奉告爱范兒和董車會：

咱們本年春天计谋會上有一個首要反思，就是咱們過分於寻求竞争，例如说总是盯着华為甚麼的，它開几多城，它的指標是几多，實在纯真的盯指標，好比说我比华為宜一點，或比华為差一點，其實不能代表用户真實的需求。

回归到用户的開車需求上来看，真實的用户需求不是接收率指標低到几多，用户必要的是智駕像老司機那样去開車，而這類拟人化的需求寄托本来法則化的模块化的研發架構很難實現。但抱负内部预研的「端到端」會做得更好。

基於此，在一年之間，抱负的智駕技能方案履历了三代调解：從有图到 NPN（神經先验收集）到無图，再到端到端。

郎咸朋這麼诠释端到端本色上的分歧：

端到端它概况上看是一個大模子替換几個小的模子，實在它是一個分水岭，從端到端起頭，才是真正地用人工智能的方法来做主動駕驶，前面實在還不是。

由於它是数据驱動的，由算力共同上数据，共同上模子，是高度主動化的自我迭代進程，這個進程迭代的是@模%73l25%子或體%41K14%系@本身的能力。那末以前咱們做了甚麼呢？咱們做的都是體系各類各样的功效，上下匝道的功效或過收费站的功效。

功效和能力，是有很大區此外。

但現實上，抱负智能駕驶夏日公布會上公布的下一代主動駕驶體系是「端到端+ VLM（視觉说话模子）」雙體系方案。

既然条件是要把智駕做得像老司機駕驶，尽量拟人化，那就得斟酌人到底是怎样干事兒的，這里的理論根据是诺贝尔奖得到者丹尼尔·卡尼曼在《思虑，快與慢》中的快慢體系理論：

人的快體系寄托直觉和本能，在 95% 的場景下連结高效力；人的慢體系寄托成心识的阐發和思虑，先容 5% 場景的高上限。

抱负「端到端+ VLM」雙體系里的端到端就是快體系，有平常駕驶場景里快速處置信息的能力，而 VLM 視觉说话模子有面临繁杂場景的逻辑思虑能力。

這個快體系的事實有多快呢？

抱负智駕技能研發賣力人贾鹏说：

如今咱們端到端延迟至關因而傳感器進来到節制输出 100 多毫秒，不到 200 毫秒，之前分模块大要获得 300 多快要 400 毫秒。

這個慢體系為甚麼又是需要的呢？

郎咸朋诠释说：

咱們如今正在摸索它（VLM）的一些能力，它最少在适才说的主路、辅路車道選擇這块有一些价值，若除毛神器,是没有它，也不會出平安問题。咱們在 L3 级别智能駕驶起重要的支持感化仍是端到端，代表這小我正常的举動下的駕驶能力。

但到了 L4 级别智能駕驶必定是 VLM @或大模%73l25%子@在這内里起到更首要的感化，可能 90% 以上的時候它不起感化，但它起感化這些内容，是决议這個體系究竟是 L3 级别仍是 L4 级此外一個關頭點，VLM 是能真實的能去應答這類未知的場景。

抱负其實不是一個端到端模子就完事兒，而是采纳了更安妥的雙體系方案来笼盖全場景，端到端賣力讓駕驶举動更拟人，更像老司機，而 VLM 視觉说话模子托住下限，更能拔高上限，有望到达更高档此外主動駕驶。

再穷究一下，和原教旨主义的端到端最後還要賣力汽車節制分歧，抱负的端到端實在也没有直接能控車，而是到了输出轨迹這一层级。

贾鹏说：

咱們的端到端模子是到了轨迹，轨迹以後加一些平安兜底，由於在模子没有到达上限以前，仍是要有一些處置的工具，好比说猛打標的目的盘如许的事，给他兜掉。

而在現實的智能駕驶進程中，两個體系也是同時事情的，贾鹏详细诠释了两個體系若何配合协作：

這俩體系一向都在及時運行，一块跑是端到端，由於模子小一些，它的频率比力高，好比跑個十几赫兹。此外阿谁模子范围参数目就大的多，是 22 亿参数，今朝能跑到大要 3~4 赫兹之間，實在也是一向在跑。

VLM 發决议计劃成果给参考點，好比说在 ETC 進高速的時辰，實在車很難果断要走哪一個道，我要走人工仍是走 ETC？這個時辰 VLM 也一向都在，若是想去選 ETC 可以走 ETC 這条道，若是想走人工可以走人工這条道，只不外它是把决议计劃成果和参考的轨迹扔给端到端模子，端到端模子推理後，再采纳這個信息。

實在 VLM 視觉说话模子是個辅助信息，终极的轨迹成果是模子推理的成果，它是有必定几率被采用的。

為甚麼端到端可以或许在智能駕驶范畴掀起如斯大的海潮？仍是由於它暗地里庞大的可能性，和在找「最终谜底」上的指向性意义。

简言之，在這套方案上，大師都還远远没有摸到能力的天花板，技能摸索和工程實践，進入到了田野區。

贾鹏進一步诠释雙體系的道理，和可能性：

實在人就是雙體系，固然物理布局上其實不是那末明白的雙體系，可是人的思惟方法就是雙體系，以是咱們那時有一個設法是在端到真個根本上再加一個真正有泛化能力，有逻辑思虑能力的一套體系，自但是然就想到了 VLM。

固然 VLM 不直接控車，可是會供给决议计劃。

再朝後這套工具怎样成长？可能跟着算力的增长，好比特斯拉 FSD 12.3 到 12.5 版本，参数提高了 5 倍，可以支持足够大的模子。

我感觉今後两個趋向，第一是模子范围變大，體系一和體系二如今仍是端到端加 VLM 两個模子，這两個模子有可能合一，今朝是比力松耦合，未来可以做比力紧耦合的。

第二方面也能够鉴戒如今多模态模子的大模子成长趋向，它們就朝這類原生多模态走，既能做说话也能做语音，也能做視觉，也能做激光雷达，我感觉這是未来要思虑的事變。

咱們這套范式應當可以或许支持咱們做到（L4 级主動駕驶），由於在呆板人具身智能上咱們已看到它的利用雏形，参考人的思惟進程，這套工具可能就是咱們心目中想寻求的最终谜底。

最终谜底的意思是咱們用這套理論和這套框架去做真實的人工智能。

不外在聊最终谜底以前，贾鹏诠释了為甚麼只有端到端可以或许解决「環島收支」的智駕困難：

若是是分段式的（智駕方案），前面是個感知，要给规控去做各類假如，做個掉頭，還得把掉頭線拟合出来，分歧的路口的掉頭還不太同样，曲率都不太同样，以是你很難做到一套代码便可以把所有環島掉頭搞定，種類太多了。

關於環島這件事，也有一個好玩的香體露,故事，在咱們（模子数据包括）大要 80 万 clips（視频片断）的時辰，還過不了環島，厥後忽然發明一天咱們（喂了）100 万 clips 它本身能過環島，我感觉是 100 万（視频片断）里頭恰好有一些環島数据放在内里了。

模子确切很利害，你喂了甚麼数据他就可以學會，這是模子的魅力地點，就像 ETC，我感觉若是你開咱們如今端到真個版本，會發明實在 ETC 它本身能過，可是問题是它如今不晓得我要走哪条道，究竟是走 ETC 道仍是走人工道，他本身會随意乱選一個，會讓你感觉不太平安，咱們後面想做的就是 VLM 可以给他這個指引，由於 VLM 是可以理解语文字，舌苔清潔器,理解 LED 批示灯的。

關於端到端理論部門的 What 和 Why，至此也有了大要的轮廓，有了数据和模子以後，就是真正地上車了，也就是 How，這才是真實的大考環節。

▲ 抱负汽車制造車間

郎咸朋给爱范兒和董車會讲了一個練習端到端模子里很古怪的小故事：

本年比力初期的時辰，刚起頭做項目，咱們發明模子練習出来，日常平凡開着還都 ok，但等红灯的時辰，車的举動就比力独特，它老是想變到阁下的車道，咱們不晓得為甚麼。

厥後大白咱們在練習端到端模子的時辰，删除不少在红灯以前期待的数据，咱們感觉等了几十秒或一分钟，如许数据没有效。但厥後發明這份数据很是首要，它教會了這個模子，有的時辰是必要期待的，不是一旦你慢下来就要插空，就要變道。

這個小故事阐明了，数据很大水平上决议了模子的質量，但模子的巨细是有必定限定的，以是喂哪些数据去練習模子，現實上就是娛樂城體驗金,最焦點的事情之一。

郎咸朋打了個比方：

練習端到端模子，跟古代炼丹没甚麼區分。古代炼炸藥讲求一硝二磺三柴炭，做出来的火藥威力比力大。其他配比，可能也能點個火起来。

不外對付想要練習端到端模子的車廠来讲，「炼丹」只是形象地比方，而非详细的工程落處所法，数据怎样来，怎样選，怎样練習，都是科學問题。

幸亏抱负有一些天赋上風，好比車賣得不错，销量在新权势車企里常常位居第一，路面上有 80 多万辆抱负汽車在跑，每一個月還能新增四五万辆，這些車供给了十几亿千米的数据。

此外，抱负很早就意想到数据的首要意义，打造了關於数据的东西链等根本能力，好比抱负的後台数据库實現了一段话查找那時，寫一句「雨天红灯遏制線四周打伞途經的行人」，就可以找到响應的数据，這暗地里是一些云真個小模子，好比数据發掘模子和場景理解模子。

郎咸朋乃至認為，這些数据库的东西链和根本扶植能力，某種意义上（首要性）乃至大於模子的能力，由於没有這些杰出的基建和数据，再好的模子也練習不出来。

底层技能方案转向，也象征着事情方法转向，當發明一個 badcase 以後，抱负内部的「分诊台」體系里的模子會主動阐發這属於哪一類的場景問题，给出「分诊建议」，然後回归到模子練習上来解决問题。

這里也触及到事情方法的變化，本来解决详细問题的人，如今酿成了設計解决問题东西的人。

為了提高「诊療」效力，抱负内部會同時練習多個模子，這個進程又回到了「炼丹」的觀點，贾鹏诠释说：

模子練習重要两個方面，一是数据的配方，雷同的場景到底要加几多，能把 case 解决掉，這是一個 know-how，分歧的場景對数据的请求纷歧样。第二點防腐漆,是模子的超参，参加新的数据後，模子参数若何调解，一般環境下有 5-6 版模子會同時提交練習，然後看哪一版解决了問题，同時得分也高。

同時練習多個模子，對数据库的根本扶植提出了请求，也對算力有巨大概求，這個時辰就该「钞能力」上場。這里抱负的上風照旧是車賣很多且贵，有這新权势車企里最佳的营收和正向現金流，可以或许支持暗地里庞大的算力付出。

郎咸朋说：

咱們估计，若是做到 L3 和 L4 主動駕驶，一年的練習算力花消获得 10 亿美金，未来咱們拼的就是算力和数据，暗地里拼的是錢，仍是红利能力。

當端到端模子替換了傳统智駕逻辑「感知 — 计劃 — 節制」里的大部門事情時，抱负相干智駕l團队的最花氣力的事情也集中在了「一頭一尾」，頭是数据，尾是验證。

除端到端模子和 VLM 視觉说话模子這两個快慢體系以外，抱负内部另有一個體系三，称之為實验模子或世界模子，本色上這是個測验體系，来稽核全部智駕體系的程度和平安性。

郎咸朋把這個測验體系比方成三個题库的调集：

		自動登錄	找回密碼
密碼			立即註冊