21對話|卓馭陳曉智:用有限算力做極致性能,這是我們血液里的東西

繼續講“價性比”的故事。

21世紀經濟報導記者 焦文娟 報導

自比亞迪將駕駛輔助下放到7萬級市場後,主機廠追逐智駕上車,供應商頻頻走向台前,車市掀起智駕熱潮。

與市場其他智駕方案供應商相比,卓馭科技是一位典型的追求“價性比”玩家,即用低算力實現更極致的駕駛輔助功能。 

去年3月,卓馭科技(原“大疆車載”)提供的7V(7鏡頭)+32TOPS配置已經開始成為8萬~15萬元級別車型標配,最低8萬元車型就可以具備城市記憶領航、高速領航駕駛等功能,彼時的量產車型已經包括寶駿雲朵、iCAR 03。 

與市場相比,要實現城市記憶領航、高速領航駕駛等功能,車企和智駕方案供應商們的方案通常基於英偉達Orin-X芯片平台,至少需要254TOPS算力。

“今年卓馭的重點還是把極限算力落地,在有限硬件、有限算力上做極致的功能和性能。”卓馭科技首席AI技術官陳曉智告訴記者,“這是我們血液里的東西。” 

卓馭科技(下稱“卓馭”)的極致成本控制能力體現在自研硬件和軟件兩方面,他們將自己定位為軟硬一體的供應商。

在硬件成本上,以上海車展推出的知周補盲雷達為例,其成本能控制在千元以內。在軟件方面,通過自研模型,卓馭也降低了成本。

這些能力的鍛造來自於“大疆車載”時期的積累。

沒有獨立之前,卓馭的前身是大疆內部一支專注於智能駕駛技術研發與探索的團隊。該部門成立於2016年,早期依託大疆在無人機領域的傳感器、計算機視覺和導航算法積累,逐步向車載智能駕駛系統延伸。在此期間,團隊已開始佈局雙目視覺、BEV感知等核心技術,也鍛鍊了卓馭的視覺技術強項。 

2024年11月,卓馭推出了“成行平台”,提供7V和9V兩種方案,涵蓋高速領航、城市無圖領航、跨樓層泊車等功能。其特色在於通過BEV技術和雙目視覺降低對高精地圖與激光雷達的依賴,實現低成本高階駕駛輔助功能。

2024年,中國一汽、大眾汽車、上汽通用五菱、奇瑞汽車、東風汽車都已經成為他們的客戶。5月9日,卓馭首次對外完整公佈了9大合作客戶,除了上述五大車企外,包括比亞迪、長城汽車、奧迪和北汽集團都已經攜手卓馭。卓馭官方公佈的數據顯示,目前已有20餘款車型已量產,還有30多款車型即將量產落地。

此前有智駕公司高管向21世紀經濟報導判斷,2025年,中低端市場將會成為更大的市場。這是卓馭擅長的領域。去年下半年上市的寶駿雲海,全系標配了大疆車載的靈眸智駕2.0 Max,已經把智駕帶入10萬元級市場。

但這也意味著,更下沉的市場擁有更多虎視眈眈的目光,卓馭的壓力不小,這種壓力不僅來自於智駕方案供應商同行,還有不斷推動自研智駕下沉的主機廠。

在同等成本下,卓馭還在做更大的算力進化。在今年的上海車展上,卓馭展出了基於英偉達Thor的VLA大模型。即使是高算力的英偉達Thor平台,陳曉智認為,Thor域控雖算力大、成本會提升,但與雙OrinX方案相比,單顆Thor域控的成本更低,屬於降本方案。

根據卓馭官方此前透露的信息,在英偉達高算力的賦能下,卓馭將進一步推動世界模型在智能駕駛領域的產品化探索。

在世界模型的賦能下,卓馭“千人千面”的智駕方案成為可能。陳曉智認為,今年卓馭將重點推進強化學習與世界模型的落地,後者運用的是思維鏈推理、慢推理技術,若能實現,將顯著提升安全性。

從3月底至上海車展期間,我們與卓馭科技首席AI技術官陳曉智博士進行了兩次交流,他向我們分享了卓馭科技今年的技術重點、路線,以下是採訪實錄,經摘編:

繼續講“價性比”的故事

21世紀經濟報導:今年我們看到,比亞迪在推動全民輔助駕駛普及,華為也在提L3有條件自動駕駛。卓馭也在做生成式輔助駕駛,往更高階的體驗去靠近。在卓馭看來,今年的主戰場會在哪裡?

陳曉智:今年我們的技術和產品重點會放在極致的L2組合輔助駕駛的功能上和Thor旗艦的平台上,從安全性和智能化兩個維度去發力,把它的輔助駕駛功能做到極致。 

21世紀經濟報導:今年上海車展上,卓馭推出了補盲雷達知周,你們的成本大概在什麼範圍?

陳曉智:知周補盲激光成本是千元以內。

21世紀經濟報導:在之前視覺的方案之外,卓馭現在又推出了激光雷達的方案,這種路徑上的拓展是出於什麼樣的考慮?

陳曉智:我們對於激光的看法一直也沒有變,一直認為它就是一個安全冗餘的作用。過往我們項目用的激光確實不多,但是今年也會有一些項目搭載激目1.0的系統也會量產。

過往做的不多是因為我們覺得視覺本身還有非常大的挖掘空間,所以我們重點還是放在視覺的方案挖掘。

21世紀經濟報導:卓馭一直在成本控制很有優勢,最近卓馭推出了帶有Thor大算力的域控、帶激光雷達和視覺融合的激目2.0,卓馭是不是還會延續之前成本上的優勢?

陳曉智:只看傳感器本身,我們認為還是有成本和價性比的優勢,我們激光+慣導三目整體的總成方案成本不會比分離式的單個激光成本更高,所以我們認為它的成本是有優勢的。

而Thor的域控它的算力大,確實成本會更高,但是它對標的是現在比較常見的兩個500TOPS的OrinX方案,它可以用一個700TOPS的Thor-U 平替掉它,算力大了一點,成本更低。所以從這兩者對標來說,它其實也是一個降本的方案。

21世紀經濟報導:未來卓馭的成本是否還會繼續下探,推動更多平價車型搭載輔助駕駛系統?

陳曉智:我們現在比較關心的像城市領航的功能,它的成本肯定能做到更低。比如卓馭目前用的7V鏡頭,再加32TOPS的算力平台就可以跑城市領航,這對於目前大家常見到的動不動跑城市領航要有激光、要有幾百TOPS算力的平台還會有比較大的成本節省。

但要下放到更低價位區間的車型還是會有一些壓力和挑戰,我們能支援更簡單的硬件就能跑城市領航,對於我們的客戶來說推動標配會更容易一些。

21世紀經濟報導:我們現在已經公佈的定點企業主要是自主品牌和大眾,但豪華品牌現在也在找本土化的智駕供應商,接下來卓馭是否有合作的可能性?

陳曉智:除了我們目前正在合作的客戶,我們也一直在跟一些全球客戶在深入交流,相關的合作未來一定還會有增加的,我們也一直在拓展這些海外客戶,包括他們在本土化的車型、海外車型。

21世紀經濟報導:華為前段時間發佈了L3有條件自動駕駛商用的方案,卓馭有沒有L3的規劃?

陳曉智:我們今年要做的事情是會把L3、L4的硬件做出來,包括控製器、傳感器,滿足L3、L4冗餘的架構需求,這個傳感器除了視覺鏡頭,還會增加激光雷達來滿足冗餘。今年更多要做的事情就是先把硬件預埋。

21世紀經濟報導:你認為L3落地具體還需要多久?

陳曉智:我們認為前提還是得先把L2組合輔助駕駛做得足夠好,再去落地L3有條件自動駕駛,但時間點我們暫時還看不到。

強化學習是未來趨勢

21世紀經濟報導:前一陣工信部對智駕的監管收緊,你怎麼看?這件事對卓馭有什麼影響?

陳曉智:工信部的新規,對技術和產品其實沒有什麼影響,我們覺得其實是好事情,行業一直以來有很多浮躁的聲音,但實際上大家在說這些詞的時候,背後到底代表了什麼,實現了什麼東西,沒人知道。

21世紀經濟報導:今年卓馭的技術重點是什麼?

陳曉智:今年我們重點會做的事情一是強化學習,二是世界模型,或者叫思維鏈推理、慢推理的技術,這兩種技術我們認為如果能落地的話,對安全性有比較大的提升。

21世紀經濟報導:這類技術具體在安全性能上如何提升?

陳曉智:對於過往長尾場景沒有見到的數據,模仿學習可能會做出一些意料之外的行為,但是強化學習是自己可以去探索一些沒有見過的狀態,從而能夠去做出更合理的決策,我們認為安全性會有一個數量級的提升。

21世紀經濟報導:前段時間卓馭發佈了生成式智駕功能GenDrive,能夠實現個性化的駕駛,你們如何做到“千人千面”?

陳曉智:“千人千面”的智駕能力,它背後的技術關鍵在於我們在研發端到端的世界模型。

21世紀經濟報導:它跟傳統的端到端世界模型有什麼區別?

陳曉智:傳統的端到端是基於模仿學習,你從大量的駕駛員數據中學習他的行為,但因為數據裡面各種風格的司機都有,你學出來的風格其實就是一個平均的司機,沒有區分度,所以它很難做到千人千面。並且它的推理過程也是基於直覺式的端到端,它看到一個傳感器輸入就做一個駕駛動作,它是直覺式的一次性動作的預測。 

21世紀經濟報導:你們用世界模型做到“千人千面”的思路是怎樣的?

陳曉智:做到千人千面,其實要有一些推理的能力,並且要區分不同的風格,我們通過世界模型,世界模型的特點是有推理能力,它可以生成未來可能發生的N種情況,就類似N個平行宇宙,這裡面可能有非預期的,有一些不符合用戶駕駛意圖的,你可能需要一個推理過程結合用戶意圖選擇最有可能的駕駛軌跡。

這背後的技術核心是世界模型的推理能力,在訓練過程中會引入強化學習去克服模仿學習本身的局限性。 

21世紀經濟報導:訓練這樣的模型,它的數據需求量很大嗎?

陳曉智:數據量其實沒有太大區別,更多是算法上的創新,引入強化學習之後,在長尾數據積累,這種數據還能減少,因為模仿學習,你要模仿一些極端場景的行為,你得採集這個場景的數據,有一些場景數據又是很難覆蓋的,強化學習可以通過仿真手段生成這種場景,它可以降低數據採集的需求。

21世紀經濟報導:現在很多車企推出一些端到端版本可能代表的是模仿學習路線,今天卓馭又推出了世界模型,代表的是強化學習路線,你覺得這兩種路線接下來哪一種會成為主流?

陳曉智:會是結合的,我們說強化學習也不是純強化學習,模型訓練還是會分兩個大的階段。

第一個預訓練階段,預訓練階段本質上就是模仿學習,有很多數據來去做預訓練,預訓練可以做到80分這麼一個通用能力,大部分場景表現不錯;

但是在80分到95分的時候,再繼續用模仿學習成本就會比較高,爬坡邊際收益遞減,這時候用強化學習效率是更高的,安全性各方面的指標也能有更大提升。

強化學習做出來之後不是拋棄模仿學習,而是結合,即在不同訓練階段用方式。明確一點,用模仿學習一直從頭到尾訓肯定不是最好方案。 

21世紀經濟報導:最近大家對駕駛輔助的安全性關注度很高,卓馭在使用世界模型生成場景的時候要怎麼保證數據和場景準確性?

陳曉智:準確性要從兩個維度去評價,一個就是逼真度,一個是幾何或者物理準確度。

逼真度就是仿出來的圖像,或者視頻真不真,這塊兒技術上已經解決相對好了;關於幾何或者物理的準確度,我們可以用幾何模型,比如說深度估計模型,或者持續重建來判斷幾何一致性,這種一致性是可以通過跑一些幾何模型,深度估計模型,持續重建來去發現它有沒有問題。

21世紀經濟報導:很多友商也在做世界模型,世界模型什麼時候將成為行業追逐的共識?

陳曉智:我們認為世界模型確實會是下一代更加好的架構,我們認為它會是在今年到明年的技術升級的方向。

21世紀經濟報導:應用到消費者體驗上,會有什麼變化?

陳曉智:現在車位到車位功能其實做得都不太好,現在車位到車位是有一個提前記憶的路線,甚至比較看重整個停車場的地圖去找車位。

但人開車卻不是這樣,人開車是看地面箭頭,看指示牌,端到端的世界模型也會具備這種能力,通過看這些箭頭或者這些信息自己去找車位,我們認為點到點應該是這種方式。

今年應該能做到這種程度,它還是一個L2組合輔助駕駛,但是體驗上應該會給大家更自然的感覺,更聰明、更連續的體驗。