到底什麼是端到端,蔚來任少卿給我們做了一場通俗易懂的普及

出品丨虎嗅汽車組

作者丨李銘揚

頭圖來源丨蔚來發佈會(蔚來智能駕駛副總裁任少卿)

7月27號,蔚來舉辦了一場技術發佈會,有芯片亮相,也有整車操作系統發佈,有Nio Phone的正式上市,也有智能駕駛世界模型NWM的展示。發佈會後的第二天,虎嗅汽車來到蔚來位於上海漕河涇的辦公室,和蔚來智能駕駛副總裁任少卿聊了兩個小時。

除了最近熱門的端到端技術以外,任少卿從自動駕駛的本質出發,分享了很多源頭上的思考。以下為虎嗅汽車與任少卿的對話:

端到端可以類比為「一體式壓鑄機」

虎嗅汽車:去年NIO IN發佈會就展示了端到端技術,而今年發佈了NWM世界模型,那這個模型具體是怎麼搭建的?意義何在?

任少卿:我覺得解釋這些問題之前,可能要先說一下,為什麼會有端到端這件事。因為我是做智能駕駛行業的,就發現行業里所有人都在說端到端。但如果你換一個別的行業就會發現,沒有人說這個事。比如說機器人行業,就沒有人講這個事對吧,因為機器人必然是端到端,端到端的本質就是我用一個模型去解決一個問題嘛。

那為什麼自動駕駛有端到端和非端到端的問題呢?因為智能駕駛本身比AI開發得早,很多年前的模型還沒有現在這麼成熟,一個模型解決不了這麼複雜的問題。舉個例子:就和流水線造車一樣,過去造一個車尾部的鑄造件,因為沒有那麼大的一體壓鑄機,那就把它拆成一個個零件。先做一個零件A,然後再做零件B,最後再把A和B拚起來。智能駕駛也一樣,過去如果沒有辦法把這個複雜的問題一次性解決,那我們就把它變成了流水線,變成了一個一個工序。但就像壓鑄機一樣,你就要定義,A和B如何拚接起來?非端到端就是這個原理。

那為什麼現在又要做端到端呢?其實跟壓鑄機也很像,現在有能力做成一體式的了。過去分成兩個件,其實會產生一些問題,比如說中間有接口,其實從鑄造的角度來說,你接口的強度就沒有一體壓鑄的那麼強,還會有額外的損耗。那從模型的角度是什麼呢?你如果有接口,這個接口就要定義得相對更清晰。一體式壓鑄,不是只把零部件壓上就結束了,還要定義接口有幾個焊點。模型大概意思也是這樣,我要定義兩個部分之間有多少個「焊點」,這個過程中實際就會造成信息的損失,壓鑄的話就是造成強度的損失,模型上也會造成信息的損失。

虎嗅汽車:信息損失具體是什麼?又會造成什麼影響?

任少卿:什麼叫信息的損失呢,舉個例子,一個最簡單的開車場景下,智能駕駛的工作邏輯是怎麼樣的呢?前方遇到一輛車。首先要有一個感知的模塊,這個感知的模塊要定義前面這輛車,那怎麼描述它的位置、速度?最簡單的方式大家都能理解,就是畫個框,然後有距離、長寬高、速度。第二步再寫一個規劃的模塊,比如說當前方車輛距離我只有10米時,如果速度比我低,那我就要減速製動了,大概是這個邏輯。

但實際研發時,一定比上述描述要複雜得多,當視線足夠清晰也就是你能看清前方的時候,這件事情可能問題不大。但如果遇上下雨天氣,實際上你也看不清楚前面的車到底距離有多遠,可能是 5 米,也可能是 10 米,此時一定要定義模型給出個結果,那它怎麼給呢?可能給個平均值或者給個中位數,也許是 7 米。如果實際距離是5米,但此時可能就離前車很近,很不安全。而如果實際距離是10米,那就造成跟車距離很長,影響體驗。這裡面,很多都是不確定性的信息。

位置的一階量距離,位置的二階量速度,位置的三階量加速度,這些不確定因素還會疊加起來,高階量因素從簡單統計上來說,沒有辦法描述,所以就產生了信息流失。而非端到端的中間需要有人工的處理。就跟前面舉例的鑄造件一樣,中間兩個件可能要靠個機器人或靠個人把它焊起來,這個過程中就產生了額外的工序和人工消耗。放在製造業來說,倒還好,可能工人培訓一段時間後,比較容易把產能提升上去。但是自動駕駛算法需要的算法工程師,本身很難規模化。

所以會有這麼兩個問題,就是非端到端,第一有信息損失,第二個要加人工處理的邏輯在裡面,整體的開發效率就會降低。如果是AEB的問題,處理一些標準 case 還好。但如果是真實場景,就會有無窮無盡這種 case,人工根本處理不過來。

自動駕駛很多年前沒有能力去做一個模型,所以做了這個流程的拆分,因為做了流程的拆分,所以引入剛才第一個信息損失的問題。第二個難點,就是解決人員去做針對 case 的開發,很難規模化,分工衝突就是問題。而到了最近這幾年,模型的能力也變強了,那大家就想說,當時因為模型能力不夠,所以有了這些歷史的包袱,現在可以扔了。

比如現在很多其他科技領域的項目,上來就是一個端到端,因為能用一個模型去解決一個事情,沒有什麼比這個更 fancy 了。端到端和非端到端,本質的差異和邏輯,就是這樣。

世界模型的本質:在四維時空裡高效安全運動

虎嗅汽車:我們體驗了最新版本的智能駕駛,升級之後跟車距離會調得非常長,會影響用戶實際體驗。蔚來基於一個怎樣的考慮出發來這樣設計,是由研發同事定義,還是產品同事定義的?

任少卿:每個版本都有微小的變化,但每個人的感覺其實差別會很大。比如說我們感覺可能就沒什麼特別大的變化,那有些用戶就比較敏感一些。實際上現在也是數據驅動的去做迭代,數據驅動之後會有一些微改,基本邏輯就是傳達這個數據。但我們也在不停地在加新的數據,每一個版本出來可能都會有些場景進行微調。

過去的智能駕駛,都是固定的邏輯,其實比較容易。前車是什麼速度距離,我就保持多少速度和距離。無論什麼場景,都是很機械的反應。

現在的做法其實是 motion plan,數據驅動,丟進去各種各樣的場景,讓它去學習對於距離還有速度的掌控。我們會從中挑開得比較好的專業數據,把數據放進去讓模型繼續去學。但某種情況下,不同的場景可能體現的結果差距就多了。可能周圍車多一點,就跟得近一點,周圍車少一點,就能跟遠一點。所以這個過程中,數據還會持續往里加,持續調優。

虎嗅汽車:NIO IN展示這個世界模型,可能是基於前三秒去想像未來兩分鐘發生的事情,你怎麼能夠確定他思考出來或想像出來的東西是合理的?

任少卿:關於預測,傳統的方法其實有很多種,第一種就是短時間預測,比如我輸出一個接下來幾秒鍾的可能軌跡。就像我們的模型裡面,最後輸出一個規劃軌跡,其他車也輸出一個預測軌跡。這個模型要解決的,就是在當前時間點,自己的車在接下來 3 秒鍾或者 7 秒鍾怎麼開。其他的車接下來 3 秒鍾或者 7 秒鍾怎麼開。但它是一個獨立時刻,在某種程度上,就只有這個獨立時刻的信息。但現在我們希望能夠推演的更長,而且希望推演的這個過程是有交互的。

比如說其他車,我預測它有可能cut in(切入變道),如果它 cut in 的話我就變道,如果它不 cut in,我就不變道,就會有這樣一些交互的邏輯。實際上,現在有兩種做法去做這些交互和預測。第一種做法是我們去年做的,跟下棋一樣,你可以理解成那個AlphaGo。它的邏輯就是,如果我的白子落這,(對面)黑子落這,那我下一步白子再落哪,它黑子再落哪。我下一步落白子有 200 種可能性,它黑子也有 200 種可能性。如果都看未來三步棋,就有 200* 200* 200種可能,這是第一種方式。

另外一種,就是期望模型自己去學習弈棋能力。剛才說的第一種點,你自己想 200 種可能性,別人再想 200 種可能性,這相乘起來是4萬,但其實這4萬種可能性裡面,有絕大多數是根本不可能存在的。所以4萬種可能性就要把它壓掉,把99%的可能都幹掉。這實際上是一個收縮的過程,有一個樹分枝的過程,然後有一個砍樹枝的過程,接著有個再分枝然後再砍樹枝的過程,這兩件事情讓模型一起做了。那我們說模型做這個想像和砍樹枝的過程,就是要模型得想得對,想得合理,把那些不合理的幹掉。

還有一點我們想分享的就是:我們在城區裡面開車往往都會遇到很有意思的事情,大家都知道有綠波帶這個東西。連續碰到兩個紅燈之後,當你看到前方第三個紅燈的時候,起步就不會開那麼快了。因為開快了,一腳油門上去,然後你還得一腳刹車下來,自己給自己找罪受。目前還沒有任何一個自動駕駛的算法可以做到這種長時間預測(未必是預測紅燈,也可能是前方出現的未知擁堵),這裏需要一個持續幾分鐘的邏輯。那怎麼讓模型干,這就需要擬人性。

圖片來源:蔚來發佈會,任少卿圖片來源:蔚來發佈會,任少卿

虎嗅汽車:世界模型展示的更多是我們觀察它的一個過程,但是怎麼去用人工干預去訓練它?

任少卿:回到世界模型這個訓練過程,先說我們希望他幹嘛?第一個他能想像,第二個他能推演。關於推演,新手一開始學開車的時候,從一個輔路進來,那離前面的路口可能 有100 米,但是要左轉,需要橫跨四個車道。老司機的反應就是直接開過去得了,但新手一定會思考很多:後面的車速快不快,這麼過去行不行?能不能變道?這就是推演的過程。

那模型也需要這麼做,只是現在模型用比較顯性的方式,給大家展現了這個過程。前面說的端到端,非端到端,這都是局限於自動駕駛這一件事情上。但我想說:世界模型不局限於自動駕駛,我們實際上就想讓一個模型,它無論是開車也好,還是一個機器狗在工廠里溜躂也好,還是一個機器人在家裡幹活也好。實際上就是希望有一個模型,具備通用能力,去學會怎麼在真實的四維時空裡面去高效、安全地運動。

自動駕駛的終極追求:實質性減少交通事故

虎嗅汽車:李斌接受採訪的時候,講了Robotaxi 這個商業模式不是那麼 make sense。在他看來,自動駕駛更大的意義應該是兩點:讓駕駛更安全、更加舒適。你怎麼看自動駕駛的終極形態和商業化落地?

任少卿:對,我們很早就認定了自動駕駛真正的兩個價值:第一個是解放精力,第二是減少事故。就像你說的,第一個是讓人開得更輕鬆,第二個是開得更安全。

這兩點,都需要有新的價值來支撐,開得更輕鬆的價值,就是說我城區開得更好,當然這個對於宣傳口來說,其實也比較難傳播。所以解放精力這個事和開得更輕鬆這事,可能就是接下來的L3智能駕駛更能體現出來。

開得更安全這個角度,就是減少事故。之前大家都是各種發小作文發影片,說白了發了那麼多影片,那真實案例到底怎麼樣?demo 肯定都能做,都能找出來好的影片。但我覺得關於安全,我們自己的追求一定是實質性減少交通事故。什麼叫實質性減少事故?比如說,我們幾十萬車主,去年事故率降低了70%,全量的話,今年要降到比如說80%到90%。這個數據是要有 solid 的,能被證明的數據。

虎嗅汽車:你們有對事故的類型做一些分析和分類嗎?

任少卿:從去年就開始,我們已經詳細地去做事故的分析,這不是一件容易的事。首先,第一個事情是:你想知道事故細節其實不容易,我們有氣囊報警提示,但是氣囊報警只佔所有事故的0.3%。第二個是:我們去做 IMU 的檢測,座艙不是有那個自動傳感器,車如果產生撞擊,那我去看看它是不是事故。但傳感器監測,也只能獲取15%的事故數據,還有85%的事故你不知道。IMU檢測傳感器需要有一個閾值,不能說人在車上踩一腳產生震動,我們就拿出來看一看。所以我們把最新的OCC 感知加進去,這個能把事故監測提升到 95% 以上。

首先得先知道事故的發生,第二步要知道事故的類型,我們實際能對所有全量的事故去分析類型。第三步當分析完事故類型後,需要判斷它的損傷有多大,這裏又包括單方事故損失和三方事故損失。

有了這些系列分析後,我們才知道還需要做哪些功能,怎麼能實質性地減少事故?實際上,最新版本的智能安全輔助功能上線後,我們從保險端數據來看,事故已經往下走了。當然目前時間還比較短,我們會累計足夠多的數據後,再跟大家說這個具體數字。這就是我們想做的事,必須看到群體的事故報險數在往下走。關於駕駛安全這個事,我們自己的認知就是:大家要拿出實際數據,你到底減少了多少事故。

智駕領域的玩家會逐漸收斂

虎嗅汽車:蔚來這家公司,芯片、操作系統、自動駕駛等等很多事情都自研。在你看來,自動駕駛時代,OEM 和 Tier 1 (一級供應商)之間的關係會被重構嗎?到底是每家 OEM 全都自研,還是多數去依賴 Tier 1,還是這兩種方式兼而有之?

任少卿:短期內可能會是最後一種,對於自動駕駛的研發,有的 case 需要 1, 000 小時、1萬小時的測試。作為一級供應商,肯定不如車企更容易搞到這麼多輛車,我們可以讓量產車去反饋問題。而智駕的供應商幾乎沒有拿到最新數據,即使最大的幾個公司也一樣,這裏就會有它的瓶頸在。而智駕的研發越往後,越不可逆轉的趨勢就是數據化,數據越多,越能產生新的體驗。

其實對於主動安全的開發也一樣,100萬公里的測試很正常,一公里三五塊錢的成本也很正常,這都算比較低的,在國外更要高很多。所有這些數據,還要上傳到雲端硬盤保存,又是一筆很大的成本。所以很多傳統的主動安全供應商,是沒有更新邏輯的,就是因為策略成本太高。最後就只做標準場景,多餘的場景別做,做了沒法驗證,沒法迭代。其實這個過程中,實質性的事故還是沒有減少。

我還想分享一個點就是:中國車企今後想做全球化,技術含量越來越高,數據要求越多,其實成本也會越來越高,不見得會有這麼多玩家在智能駕駛這個領域了。我認為智駕這個領域肯定是要相對更規模化,然後要收斂,只是說最後收斂到什麼程度。最後比拚的是:大家在新的基於模型、基於數據的這種範式下,誰能跑得更快、做得更好、成本更低,最後逐漸整合。

虎嗅汽車:對於能源戰略,蔚來開放換電聯盟給其他車企。蔚來的智駕方案,以後也會考慮類似的策略開放給其他玩家嗎?

任少卿:我覺得會有這個過程,如果有主機廠對我們的新方案感興趣,我們其實是有多套方案的。4orin芯片,單orin芯片的,純視覺做城區等等方案。單orin純視覺做城區的方案,應該目前市面也沒有,我們會是第一個。那相對來說,性價比就比較高,後面我們還會有神璣NX9031。

我為什麼願意做這個事?回到前面說的,自動駕駛一定會向大數據驅動發展,有更多的車,有更好的數據閉環,那你就有更好的競爭優勢。基於蔚來體系,我們的數據閉環絕對是全球頂級,那就可以去賦能更多車型。