AI下一個必爭之地,將引發自動駕駛「終局之戰」?

「機器人的ChatGPT時刻即將到來。與大語言模型一樣,世界基礎模型對於推進機器人和自動駕駛汽車的開發至關重要。」

在CES 2025上,黃仁勳身穿新皮衣,除了推出炸裂的RTX 5090之外,還宣佈入局人工智能領域當下最關鍵的方向——世界模型。

此次英偉達發佈的Cosmos世界基礎模型專為物理交互、模擬工業環境和駕駛環境的高質量生成而構建,可以生成逼真的影片用於訓練機器人和自動駕駛汽車,並通過創建合成訓練數據幫助機器人和汽車理解物理世界。

除了英偉達,Google以及不少初創企業也在追逐世界模型,Google旗下DeepMind組建世界模型研究團隊,被視為Google在通用人工智能(AGI)領域與競爭對手展開角逐的重要一步。此外,「AI教母」李飛飛的World Labs、初創公司Decart、Odyssey也都涉足其中。

北京智源人工智能研究院近日發佈的「2025十大AI技術趨勢」認為,更注重「因果」推理的世界模型有望成為多模態大模型的下一階段。

世界模型不僅引得全球科技企業競相逐鹿,還被業內視為人工智能領域的下一個關鍵突破。世界模型為何如此重要?對於自動駕駛等科技領域將觸發怎樣的新變革?

人工智能下一個「必爭之地」

在現實世界中,技術也是可以高度重構的,隨著時間的推移、新技術的出現,未來在不斷改進、不斷進化。

自2022年底,隨著OpenAI發佈大語言模型ChatGPT,生成式AI大模型便逐漸演化出了兩條路徑:語言模型和世界模型。

語言模型繼續在數字世界深耕,從單一的文本模態走向包含圖片、影片在內的多模態,使其具備了文生圖、看圖說話、圖生圖、文生影片的能力,典型代表就是Sora和GPT4-o。

不過,語言模型最受爭議的挑戰是它們產生幻覺的傾向,會捏造參考資料和事實,或在邏輯推斷、因果推理等方面顛三倒四、生成毫無意義的內容的情況,這些幻覺都源於它們缺乏對事件之間因果關係的瞭解。

這也表明,語言模型雖然善於從數據中識別和提取因果關係,但缺乏自己主動推理新的因果場景的能力。它們具備通過觀察進行因果歸納的能力,但不具備因果演繹的能力。

世界模型則從數字世界走向物理世界,從一維形式的數字智能走向三維形式的空間智能。它通過預訓練擴展影片和多模態數據,並集成多模態語言模型,可用於為影片遊戲和電影創建實時交互式媒體環境,以及為機器人和其他人工智能系統創建逼真的訓練場景等諸多場景,被業界認為是通往通用人工智能(AGI,指機器能夠理解或學習人類能夠執行的任何智力任務)的關鍵路徑。

追溯一下,「World Models」(世界模型)最早出現在機器學習領域。

2018年,機器學習頂級會議NeurIPS收錄的《Recurrent World Models Facilitate Policy Evolution》論文,以認知科學中的心智模型(Mental Model)來類比世界模型,認為其參與了人類的認知、推理、決策過程。其中,最核心的能力——反事實推理(Counterfactual Reasoning),是一種人類天然具備的能力。

2024年2月,OpenAI發佈了震驚世界的文生影片大模型Sora,它可以根據文本自動生成一段60秒影片,這成為世界模型的一個具象體現。

傳統的生成式模型或許能夠準確預測籃球會彈跳,但並不真正理解其中原因,就像大語言模型實際上是基於神經網絡的概率推理,給出最可能符合實際預期的答案,而非真正理解詞語和短語背後的意義。然而,具有基本物理認知的世界模型將更善於展現「籃球的真實彈跳」。

相比大語言模型還停留在理解人類語義階段,世界模型則以三維視角開始理解真實的物理世界。

關於理解真實世界的物理法則,其實並沒有想像得那麼容易。比如,現在讓你去想像手掌時,你都能準確且毫不費力地想像出來,但是在目前人工智能的製作中,會經常會出現多根手指或連指的現象。

此前,Meta首席人工智能科學家楊立昆(Yann LeCun)就明確表示,基於文本提示生成的逼真影片並不代表模型真正理解了物理世界。之後更是直言,像Sora這樣通過生成像素來建模世界的方式註定要失敗。

世界模型正在試圖超越數據,模擬人類的潛意識推理。例如,棒球擊球手能在毫秒內決定如何揮棒,是因為他們可以本能地預測球的軌跡。這種潛意識推理能力被認為是實現人類級智能的先決條件之一。

為此,世界模型通過在大量的照片、音頻、影片和文本數據上進行訓練,創建對世界運作方式的內部表徵,並能推理行為的後果,這使它們能更好地理解和模擬現實世界的規律。

當前,人工智能領域對世界模型的需求主要集中在兩個方面。

第一,對環境的深度理解和建模。通過建立準確的世界模型,人工智能系統可以更好地感知和理解外部世界,從而做出更加準確和智能的決策。當前,人工智能領域在這一方面的研究主要集中在強化學習和深度學習領域,通過神經網絡等技術來構建複雜的世界模型,並不斷優化和改進模型的性能。

第二,是反事實推理的能力提升。反事實推理,也就是回答「如果……會發生什麼?」問題,這是當前人工智能系統能力的一個短板。通過提升世界模型的反事實推理能力,人工智能系統可以更好地預測不同決策的可能結果,從而做出更加智能和合理的決策。人工智能領域在這一方面的研究集中在改進模型的預測能力和優化推理算法等方面,以提升模型的整體性能和效果。

自動駕駛迎來「關鍵一戰」

對於世界模型是否會成為自動駕駛的終極之戰,目前下結論為時尚早,不過可以肯定的是,一旦這一技術趨於成熟,將對自動駕駛的智能化水平帶來「質」的躍遷。

自動駕駛的飛速發展,對數據有了進一步要求。車企需要豐富、複雜場景來錘煉汽車的自動駕駛能力,然而現實生活中數據採集成本居高不下,部分危險場景難以採集,長尾場景稀缺,影響自動駕駛進一步發展。

因此,採用合成數據來助力自動駕駛模型訓練成了有效的解決方案,世界模型正是這樣的場景生成和預測器,能夠為自動駕駛模型訓練提供豐富虛擬場景。

過去,多模塊化的智能駕駛方案可以對感知和規控模塊分別進行驗證,在感知端層面,工程師可以將感知的結果和帶有標註的真實世界狀況直接對比,進行開環監測;在規控模塊,可以依靠仿真工具將世界的各類場景輸入,通過環境的變換來給模型反饋,進行閉環的驗證規控算法性能。

而端到端智駕方案將感知、預測、規劃、控制集成一體,這就要求仿真工具既可以逼真地還原外部環境,同時又能給模型反饋實現閉環測試,這是世界模型可以實現的。

雖然國內汽車行業現在的關注焦點停留在端到端,但業內共識是,從「兩段式」逐步過渡到「一段式」端到端,最終實現世界模型的應用,是實現高階自動駕駛的一條必經之路。

如果梳理自動駕駛技術的發展路線,就會發現一個非常有意思的事情。所謂「功夫在詩外」,這幾年所有對自動駕駛發展產生推動的技術其實都不源於自動駕駛,而是人工智能,包括BEV+Transformer、佔用網絡OCC、端到端、世界模型,自動駕駛的本質就是人工智能的一個具身智能體現。一定要把自動駕駛放到整個人工智能領域來綜合看待,如果只盯著自動駕駛,這樣就永遠搞不好自動駕駛。

自動駕駛發展這麼多年,都是在做空間理解的升級,就是讓系統更理解周圍的世界。

最早是通過提升傳感器硬件能力,後來是算法升級,通過鳥瞰視圖(BEV,Bird’s-Eye-View)進行視角轉換,利用佔用網絡(OCC,Occupancy Network)將2D轉換為3D,到現在軟硬件能力都已經出現瓶頸,但是極端場景數據的獲取卻成了大難題。

目前比較常規的做法有兩個,一個是3D重建,但這樣的做法成本高、效率低,並不實用;另一個就是仿真,但是仿真的數據根本無法「還原」真實數據,對自動駕駛的幫助有限。

於是,世界模型通過自己「造數據」,成為提升自動駕駛訓練效率的有效方式之一。其不僅可以通過生成式大模型生成帶有預測性質的影片數據,實現Corner Case多樣化訓練,還可以採用強化學習的方法認識複雜駕駛環境,從影片輸出駕駛決策。

世界模型將過去由人向人工智能主動提出問題,人工智能被動向訪問者給予反饋的模式,進化為交互式人工智能的新階段,使人工智能能夠主動感知周圍環境,並主動提問,從而變成一個可以自主行動的實體。

2023年,特斯拉自動駕駛負責人在CVPR上介紹了通用世界模型,該模型可以通過過往的影片片段和行動提示,生成「可能的未來」全新影片。

Wayve也在2023年發佈了GAIA-1模型,可以依靠影片、文本和動作的輸入生成逼真的影片,能夠生成分鐘級的影片以及多種合理的未來場景,幫助自動駕駛模型的訓練和仿真。

在CES 2025上,英偉達發佈Cosmos世界基礎模型(WFM),可以接受文本、圖像或影片的提示,生成虛擬世界狀態,並針對自動駕駛和機器人應用實現內容的生成。

與此同時,國內廠商也在加速跟進世界模型的搭建。

2024年7月,蔚來發佈智能駕駛世界模型NWM。這是一個具有全量理解數據、長時序推演和決策能力的智能駕駛世界模型,能夠在短時間內推演出上百種可能發生的場景,並尋找到最優決策。

理想汽車也在其智駕方案中引入了「重建+生成的世界模型」,利用3D高斯模型做場景重建,利用擴散模型做場景生成,以重建仿真和生成仿真兩種技術路線,為智駕方案提供了「錯題集」和「模擬題」。

如此看來,世界模型勢必將是汽車智能化的一道分水嶺,其在場景生成、模型訓練、仿真測試、數據閉環等方面的獨特優勢,將推動包括自動駕駛、機器人等在內的人工智能應用迎來「ChatGPT時刻」。

更輕的車,更「重」的雲

歸根結底,自動駕駛的競爭最終將是算法、算力、數據的底層能力之爭,出現任何一塊短板,都將引發木桶效應。

整體上看,自動駕駛正呈現出由車端競爭向雲端競爭遷移的趨勢,整個產業在更「輕」的同時也更「重」。

根據阿伯丁大學、MIT等機構的研究者對算力需求的研究發現,在2010年之前模型訓練所需的算力增長符合摩亞定律,大約每20個月翻一番。自2010年初深度學習問世以來,訓練所需的算力快速增長,大約每6個月翻一番。2015年末,隨著大規模機器學習模型的出現,訓練算力的需求提高了10-100倍,出現了一種新的趨勢。

與目前用於生成式模型的計算量相比,訓練和運行世界模型需要龐大的算力,即使是Sora(可以視為早期的世界模型)也需要數千個GPU來訓練和運行,尤其是在其使用變得普及的情況下。

隨著模型的持續進化,車端顯然無法承受算力之重,智能化的中心必然要從車端逐步遷移到雲端。

通過建設雲端強大的數據閉環和算力能力,並配合路側邊緣計算系統的數據感知融合、實時處理、計算和分析,車端因進化迭代所面臨的技術與算力瓶頸被打破,「雲」成為智能汽車進化路上強大的底層基建。

而車端借助路側邊緣計算系統與雲端數據中心,將車端算力、數據處理、軟硬件成本進行後移,實現技術與成本的雙減負,智駕技術得以被普及到更低價格段的車型上。正在攀登高階自動駕駛這座珠峰的玩家,能夠不斷通過「技術進步→成本降低→產品落地」的循環,來獲得更大市場。

車端與路側和雲端形成完整的閉環,車端和路側收集到海量的交通數據之後,雲端利用大數據和AI算法,對數據進行分析與挖掘,從中提取有價值的信息。

例如,通過對交通流量進行數據分析,交管部門可以根據實時交通流和道路情況智能調整配時方案,提高道路通行效率。同時,車輛也能接收到車路雲網絡的信息,提前瞭解道路上的障礙和危險,從而採取相應措施確保行車安全。

同時,車端和路側數據可以在雲端集中進行自動駕駛模型的訓練與仿真,再把模型數據發回車端,進行OTA部署及更新,三端進行協同互補,由此完成了自動駕駛技術的迭代與進化。

然而,世界模型的構建和應用也面臨著顯著的挑戰。

首先,環境模擬的準確性極大地依賴於模型的複雜度和所擁有的數據質量。要精確地預測複雜環境中的動態變化,需要大量的數據和強大的計算資源,這對於資源有限的項目來說可能是一個限制。

自動駕駛是對人類駕駛行為的學習,人的駕駛能力有上限,所有自動駕駛的安全邊界也有上限,自動駕駛的安全必須高於人類才有意義,尤其是L4級自動駕駛。所以必須要有高於人類駕駛行為的世界模型數據訓練出來的系統才能優於人類。

其次,構建一個能夠泛化到多種不同環境的世界模型是極具挑戰性的,因為現實世界的複雜性和不可預測性遠遠超出了任何現有模型的處理能力。

世界模型和所有人工智能模型一樣,也會產生幻覺,並內化訓練數據中的偏見。世界模型的訓練數據必須足夠廣泛,以涵蓋多樣化的情景,同時也要足夠具體,使模型能夠深入理解這些情景的細微差別。

儘管世界模型在理論上具有巨大潛力,但在實際應用中仍然存在許多未知數。例如,如何確保模型的預測準確性,如何處理模型可能的偏差,以及如何在不同的應用場景中調整模型參數以適應特定的需求等問題都需要進一步的研究和探索。

對於汽車智能化這個宏大主題來說,行進道路確實非常艱難。有時目標足夠沉,問題足夠多,才有這麼多的技術被發明、被創造,而每個技術名詞的背後,都是成長的印記,也是試錯的痕跡。但正是一段段的技術死磕,才讓智能化逐漸有了一個更明朗的未來。

本文來自微信公眾號「極智GeeTech」,作者:半山,36氪經授權發佈。