北大陳寶權教授：從圖形計算到世界模型

09月30日 13:08 新浪網 news-china-auto-hilite

機器之心報導

機器之心編輯部

近日，北京大學陳寶權教授在第九屆計算機圖形學與混合現實研討會（GAMES 2024）上，發表了題為《從圖形計算到世界模型》的主旨報告，分享了他從圖形仿真角度對世界模型的思考。本文是對陳教授報告的完整整理，以供大家學習。

世界模型是當前的熱點話題。我這裏分享的題目是「圖形計算到世界模型」，作為拋磚引玉，試圖挖掘和展示圖形計算和世界模型兩者之間可能建立的緊密內在聯繫。

GAMES 這個平台上的報告，主要是為了交流，鼓勵大膽提出想法，引發討論，而不是單純的宣讀一些既有成果。所以，我為此做了一些調研和思考，期待通過這個報告，能激發更多關於圖形計算如何助力構建更精準世界模型的深入討論。

近年來，AIGC 領域的大模型技術取得了迅猛的發展，引發了廣泛的關注與討論。當觀察到僅通過簡單的文字輸入，這些模型便能生成連貫且有邏輯的場景時，一個自然而然的問題浮現：這些模型背後是否隱藏著一個世界模型？這一疑問直指 AI 技術的核心，激發了業界對於模型內部機制與能力的深入探索。

首先，我通過 Google 進行了搜索，「Sora 是否具有世界模型」。搜索結果顯示，Sora 具備了一定的模擬真實世界的能力，通過影片生成模型來體現。該搜索還關聯到一篇相關文章，文章作者中有坐在台下的 Jiwen 老師。這篇文章通過對一系列生成模型的綜述和分析，展示了 Sora 等模型內部融入了視覺模型的元素，支持了該類模型包含世界模型特徵的觀點。

退回一步，何謂「世界模型」？其實，當前學術屆和產業界對於世界模型缺乏一個統一且嚴格的界定。回顧過往，LSTM 的先驅 Schmidhuber 及其學生曾在其論文中探討過世界模型，他們並未直接給出世界模型的明確結構，而是從功能角度進行了闡述。他們認為，世界模型的核心在於其預測（prediction）與規劃決策（planning）的能力。換言之，若一模型能夠基於當前信息預測未來狀態，並據此做出合理規劃與決策，那麼它便被視為具備世界模型的特徵。這一定義雖非嚴謹的結構性描述，卻從實用功能角度出發，為我們理解世界模型提供了有益視角。

Yann LeCun 作為人工智能領域內的重要人物，也曾從現象層面深入剖析世界模型的概念。儘管這一闡述也未提供嚴格定義，但他認為世界模型所涵蓋的關鍵能力，如預測、推理、決策及規劃等，與我們先前討論的內容高度契合。值得矚目的是，LeCun 的論述將世界模型的功能同人類大腦類比，通過圖示形象地展示了這一理念。

從 GPT-4o 的回答中，我們也可以看到類似的觀點：世界模型被描述為一種能夠進行模擬、預測、規劃和決策的系統。這種系統通過學習和理解大量的數據，構建出對現實世界的內部表示，從而能夠模擬不同情境下的可能結果，並據此做出最優的決策。

綜上所述，我們可以通過構建一個最簡單的示意圖來直觀理解世界模型。我們以真實場景作為輸入，通過一個有理解、分析、模擬、評價等能力的世界模型，最終實現在該輸入條件下符合真實場景的未來預測及決策推理。這樣的世界模型體現了人工智能技術在處理複雜信息方面的能力，也預示了其在多個應用場景中的巨大潛力。

當前，眾多大型 AI 模型已展現出在複雜場景應用中的卓越能力，特別是在無人駕駛領域，其成熟度尤為顯著。底下左邊，一個面向無人駕駛的高逼真仿真系統通過模擬多種傳感器（如激光雷達、攝像頭、聲音傳感器等）產生豐富的多模態數據，由此構建出一個龐大的數據集用於大模型訓練。底下右邊，該模型在新的場景下實現了對環境的精準感知，並由此做場景的動態預測，進行判斷決策，完成自動駕駛任務。在這方面有許多著名的嘗試，比如 nuScenes 這樣的項目，它在數據豐富性和多模態性方面超越了傳統的 KI湯臣I 數據集，為模型提供了更為全面的學習素材。同時，英偉達等科技巨頭也在無人駕駛場景的仿真模擬（simulation）方面投入了大量資源，推動了該技術的快速發展與應用。

可見在自動駕駛等領域，人工智能技術已展現出從真實場景輸入到符合真實場景輸出的從感知到決策的全鏈條能力，標誌著這一技術正逐步邁向成熟，在現實中的應用會快速推廣開來。

接下來，我想針對如何構建更加完備的世界模型這一宏大命題，探討一下可能的實現路徑。儘管語言、圖片和影片大模型已展現出強大的能力，但這僅是建立世界模型征途的起點。大模型依託 scaling law，通過海量數據「喂養」取得了顯著成效，但我們能產生的數據的邊界遠未被觸及，可能的訓練模式也遠不止當前這些。

我將從幾個核心維度展開闡述：數據豐富性、訓練模式、監督機制的增強，以及這些要素最終有機融合，共同推動世界模型的構建。在這一過程中有一個中心詞就是 simulation，它佔據了舉足輕重的地位。圖形計算的核心目標就是模擬一個真實的世界，所以我將把它等同於 simulation。這樣的 simulation 在模擬真實世界、更有效地訓練模型，加速模型迭代與驗證方面展現出非凡的價值。

首先，我們看看現有大模型訓練的基本規律和其局限。

在大模型訓練的過程中，一個關鍵觀察是數據量與模型損失（loss）降低之間的關係。儘管常有人以線性關係簡化描述，但實際上，這種關係更接近對數 (Log) 關係，這暗示了模型對數據需求的指數級增長特性。事實是，隨著模型訓練深入，對數據量的要求急劇增加，以至於數據資源在迅速耗盡。這一現像在涉及更高維度（如三維及以上）的數據處理時尤為顯著，進一步凸顯了高效數據利用與擴展數據源的緊迫性。

在二維領域，對數據的需求已展現出龐大的規模，如德國開源項目 LAION 所展現的 5PB 數據量，儘管其後續版本 Re-LAION 經過清洗後重新發佈，但數據量依然可觀。然而，當我們轉向三維數據領域時，情況則大為窘迫。從早期的 ShapeNet 到近期的 ObjectVerse 及其擴展版 ObjectVerse-XL，三維數據集的量級僅為數十兆，與二維數據相比，顯然不在一個數量級上。這凸顯了三維數據的極度稀缺性，是當前人工智能與計算機視覺領域面臨的一大挑戰。

在這一背景下，simulation（模擬）的重要性日益凸顯。鑒於數據的有限性，如何系統性地生成更多高質量、帶標籤的數據成為關鍵。simulation 正是這一需求的強大解決方案。如今，計算機圖形技術已遠非僅限於特效製作和圖像編輯，其核心實力在於模擬現實世界，構建的 simulation 系統可以生成海量數據，這不僅能夠擴展數據集規模，還能提供豐富的標籤和可控性，確保數據的多樣性、合規性、約束其符合倫理道德標準，這樣的數據增廣為大模型的訓練提供有力支持。

利用 simulaiton 來生成數據已經有許多成功的初步探索，如 UCSD 蘇昊團隊早期的針對圖像姿態估計等任務的研究。這一工作的基礎是採用有 pose 信息標註的圖像作為訓練數據的卷積神經網絡（CNN），而真實世界中的圖像中，有 pose 標註的是非常有限的，遠不足以訓練一個有效的模型。蘇昊團隊就利用了 ShapeNet 等三維數據集，通過三維渲染生成了大量包含姿態信息的圖像數據，為 CNN 的學習提供了豐富的訓練樣本，而訓練得到的模型，應用在真實世界無標註的圖片上，也能夠良好的泛化，得出有效的 pose 估計。這種數據生成方法有效彌補了現實世界數據標註稀缺的問題。

隨後，基於這些三維數據，蘇昊團隊以及其他研究者們還開發了更為複雜的場景交互功能（interaction），如櫃門開啟、物體抓取等，旨在模擬真實世界中的物體交互，為機器人訓練等應用提供更為貼近實際的數據支持。由此可見，圖形計算提供的 simulation 能力已成為產生高質量、帶標籤、有功能的多樣化訓練數據不可或缺的重要手段。

但我們也都知道，模擬仿真（Sim）與真實現象（Real ）之間還存在差距，這是由數據的生成方式所決定的。那麼為了生成更貼近現實世界的數據，在具身智能等智能應用中，我們需要採用「real to sim」與「sim to real」的策略。前者指從真實世界獲取原始傳感數據，用於構建相對應的仿真環境，比如說我們以香港科技大學廣州校區（港科廣）的校區作為目標對象，那麼可以基於港科廣的真實傳感器數據重建其數字化表達，如果有動態場景，就建立與之對應的動態仿真，這就是 real to sim；一旦從 real 建立 sim，我們就可以通過改變模擬參數，來模擬出更豐富的場景，比如說新視點觀察，場景重構和功能組合等。Simulation 是基於真實世界原理的，它具備很強的真實感，不只是在表象上（appearance），還包括它的動態（dynamics）和交互（interaction）等等，因此，基於圖形計算的仿真能做到儘可能真實（as-real-as-possible），實現「sim to real」。

但是，儘管「sim to real」努力使模擬接近真實，但完全消除兩者之間的差距仍是一個挑戰。因此，在部署階段，往往還需進行「real to real」的微調，即在真實環境中採集輸入輸出數據來訓練大模型，進一步調整和優化系統性能，彌合 sim 和 real 之間的差異。

對於複雜應用場景，Real2Real 的數據非常有限，完全依靠這類數據來實現具身智能是不夠的。通過結合真實數據進行模擬仿真，然後高逼真生成仿真數據，擴展真實數據的邊界，這樣的 Real2Sim2Real 框架成為推動具身智能發展的重要途徑。

在無人駕駛等工業界推進迅速的領域內，「現實到模擬」（real-to-sim）與「模擬到現實」（sim-to-real）的雙向轉換上已經取得了顯著成效。比如我們展示的這些例子，當然還有更多。但若僅將模擬技術局限於數據生成層面，是對 Simulation 潛力的一種低估，被大材小用了。

事實上，圖形仿真不再僅僅局限於數據提供者的角色，而是成為了一個訓練環境的構建者。通過強化學習等先進技術，圖形仿真能夠直接為訓練過程提供環境支持，使得智能體能夠學習並優化其決策推理能力，而這正是世界模型所應該構建的能力，實現理解、預測、策略、執行等關鍵功能。提供訓練環境這一點對於推動人工智能技術的發展具有重要意義。身為計算機圖形學領域的研究人員，我深感自豪的是，圖形學在現在乃至未來的人工智能發展中將佔據越來越重要的位置。

在多個領域，如數字人和機器人的運動控制、無人車行為控制等，深度強化學習已成為一種高效訓練方式。該方法利用模擬環境（sim）提供的豐富交互場景，通過深度強化學習算法學習背後的策略（policy），從而更有效地獲得預測能力。北京大學的劉利斌老師圍繞數字人體的運動控制，在結合仿真環境這個方向上發表了許多優秀工作。在這些強化學習的工作中，物理仿真環境的有效交互成功推進了這些模型的魯棒性和泛化性。

以下是利斌研究工作的展示。這些工作從捕獲人體真實的動作開始，然後通過模擬（sim）環境與深度強化學習（deep reinforcement learning）技術相結合的方式，成功學習並模擬出相當複雜的動作策略（policy），比如滑滑板、使用筷子等等。注意，模擬的精確性是非常重要的 —— 模擬越精確，學到的內容質量越高，越接近真實世界。例如，最右側的研究中引入了肌肉（muscle）模型，超越了傳統關節動畫，更加貼近真實的人體運動機制。這種準確的模型可以模擬許多真實的運動細節，例如長時間奔跑後體力下降，疲勞感所帶來的動作變化等等，為人工智能在人體運動模擬領域的應用提供了新的可能。

在機器人領域，許多近期的工作通過採用一些高效的仿真框架，例如英偉達的 Omniverse 平台，深入探索了仿真（simulation）技術的潛力。他們利用該平台構建了大量仿真環境，並在其中應用強化學習（reinforcement learning）技術來訓練和優化機器人的行為策略（policy），從而推動了機器人技術的創新與發展。

當前，仿真環境在多個領域已展現出良好的應用前景，但現有技術往往仍局限於剛體（rigid body）模擬，還存在大量的真實現象不能支持。為了更貼近現實場景，提升仿真效果，我們必須超越剛體模擬的範疇，探索軟體、流體，甚至剛體與軟體融合的多物理場（multiphysics）場景。在此過程中，如何實現多物理仿真，如何提高仿真的保真度（fidelity）和性能（performance），成為圖形學領域的核心挑戰與使命。因此，不斷推進正向仿真（forward simulation）技術的邊界，增強其綜合性全面性的能力和真實感，是我們當前的重要任務，也是圖形學非常硬核的（hard core）研究課題。

近年來，我的實驗室持續致力於軟體仿真領域的技術創新與突破，以下介紹幾個代表性成果。例如，我們已成功實現了大規模軟體的實時變形仿真。左圖中的結構可能幾何形態看似簡單，但它其實包含大量四面體網格，需要在準確計算形變的同時，維持軟體體積不可壓縮的約束，其動態的計算不僅複雜，其計算量還非常巨大，而我們基於 GPU 的方法實現了實時的解算。此外，我們還深入研究了參數化表面的連續碰撞問題，這是仿真領域長期存在的複雜問題。右側影片中的碰撞模擬效果展現了我們準確處理複雜參數化表面碰撞的能力。諸如此類的軟體動態仿真是我們當前仿真環境所急需的能力。

進一步擴展到多物理方面，我們團隊在流體與固體交互領域取得了一系列具有影響力的研究成果（博士生阮良旺、幸京睿、陶凝驍）。通過精確構建液體表面張力和流固相互作用的模型，我們成功實現了單一固體或液體仿真難以達成的真實感效果，為複雜物理現象的模擬提供了新工具。

我們團隊針對磁流磁軟體這一特殊領域的研究一直是國際領先的，如上圖所示，取得了一系列的前沿進展。我的博士生倪星宇對此領域展現出濃厚興趣，持續深耕這個子領域，不斷地推進磁場流固現象仿真的邊界。其中，他今年在 Siggraph 上的工作尤為突出，該工作能夠廣泛適用於磁場中的流體和剛體、軟體，且相較於傳統技術，實現了約 100 倍的性能提升。具體而言，在處理 512 立方體數據時，我們成功將幀率提升至每秒一幀，而此前則需耗時約 100 秒才能完成一幀的渲染，這一突破極大地加速了磁流磁軟體模擬的實時性。

觀察現實世界中的物體及其動態現象，其複雜性與多樣性令人歎為觀止。因此，如何構建更加精準、全面的仿真環境，以模擬這些複雜多變的物理現象，是我們需要不斷探索和努力的方向。我們在推動仿真環境的研究將豐富強化學習環境，使其真正接近於真實的、多物理的世界，進一步提升世界模型的能力，大大擴展其應用領域。

儘管仿真作為強化學習訓練環境展現出巨大潛力，但強化學習在長時間尺度下仍面臨獎勵序列冗長、策略優化易陷入困境及收斂困難等關鍵問題。為解決此挑戰，可微分模擬的重要性日益凸顯。通過引入可微分性，我們能夠實現精細化的梯度回傳機制，構建起監督學習的閉環系統，從而優化策略學習過程。

此轉變要求 simulation 過程全面實現可微分，以確保有效的梯度傳遞與策略優化。相較於傳統僅提供訓練環境的仿真方法，這是一個比較新的研究領域，其核心在於實現全面的可微分性，將為模型訓練的發展提供新的有效途徑。

可微模擬領域儘管已有初步探索，但整體而言相關研究尚不充分，近年來，可微模擬正在逐步受到領域內的重視。以下我舉幾個例子，介紹可微的、逆向的模擬，以及它能實現的一些有效的優化和訓練。

我的長期合作者王濱博士在逆向軟體仿真方面做出了開創性的工作。首先，通過捕捉實際荷葉在受外力作用下的晃動，獲取其動態點雲數據及其表面幾何變化；隨後，結合物理學模型與參數，利用可微構建閉環的模擬系統，該系統首先前向模擬荷葉動態，繼而通過可微優化殘差，逐步擬合真實捕捉的動態數據。整個過程中，所有參數及模擬流程均實現可微分性，從而實現準確優化。一旦物理參數優化完成，我們即可準確模擬該數字化荷葉在不同條件下的動態響應，展現出強大的、與真實世界高度一致的預測能力。

這一方法論不僅限於軟體，對於更變化多端的流體，我們也可以借助可微模擬來實現從真實世界的數據捕捉，到數字世界的流體物理場重建。比如這是北大楚夢渝老師的流體重建工作，它基於物理知悉網絡（PINN）的可微性，實現了對真實世界流體的擬合、重建和模擬。

可微模擬技術不僅意味著我們可以擬合和重建真實世界的動態和靜態數據，更在優化設計領域開闢了新路徑。以下工作是我們團隊的研究成果，展示了可微模擬在磁軟體機器人控制中的應用（博士生陳旭雯）。磁軟體機器人是一個具有磁性的，可以通過外磁場控制的軟體機器人。我們的工作希望以外磁場為媒介，在現實複雜環境下，實現目標導向的控制，如爬坡、越障及穿越複雜地形等。這一過程涉及複雜的反向優化，即通過不斷優化外部磁場參數，實現精準的動態調整。該優化過程高度依賴於可微模擬技術提供的實時反饋與梯度信息，外磁場在梯度的指導下靈活調整，操縱磁軟體機器人應對各種挑戰。

此外，可微模擬還賦予了我們設計軟磁體機器人形狀與物理參數的能力，為其在更廣泛領域的應用提供了可能。

將可微模擬用於動態現象的生成，Michel Black 團隊一個近期的工作具有代表性。他們通過少量數據訓練了一個能夠模擬人與衣物動態變化的模型。該方法的核心在於採用了一種基於可微模擬監督（differential phyisics supervision）的訓練方法，有效利用物理知識等先驗，克服了數據稀缺的挑戰，從而構建出一個具有廣泛適用性的模型。該模型能夠在人體姿態與衣物狀態發生顯著變化時，依然能夠生成合理且自然的動態效果。

這不僅展示了可微模擬監督在數據效率方面的優勢，也體現了該模型在處理複雜物理交互問題上的強大潛力。

同樣利用可微仿真，劉利斌老師在人體運動控制領域做出了一些突出的研究成果。面對人體運動的仿真環境不可微（non-differentiable）的難題，他們的工作採用了基於模型的學習思路，構建了一個可學習的物理代理模型（physics surrogate model），這一代理模型類似於世界模型，能夠模擬物理行為，且具備可微分性和魯棒性，從而提供了通過反向傳播（backpropagation）進行物理監督和約束的能力。

通過這一方法，利斌團隊使用較少的迭代次數，成功訓練出了一個具有高度泛化能力的動作控制模型。該模型能夠有效地處理人體運動控制中的複雜問題，展現了在複雜模擬中進行高效可微監督的潛力，不僅推動了人體運動控制技術的發展，也為其他領域中的非直接可微的系統優化提供借鑒。

可微代理模型在訓練穩定性和高效性上的顯著優勢，使得它可以被應用於數據維度更大的任務當中，比如利斌後續的基於大量運動數據訓練人體動作的生成模型的工作，可以有效壓縮幾十小時的多樣化運動數據，首次實現大規模運動控制的生成式建模。可微的物理代理模型在其中負責提供魯棒的基於物理等先驗知識的約束，提高了複雜網絡結構下的控制策略訓練的穩定性，保證訓練在較短時間收斂。這一工作也驗證了可微模型在大數據與複雜環境下的有效性。

在探索可微模擬這一前沿領域時，我們不可避免地面臨諸多挑戰。首先，儘管已取得一定進展，但實際應用場景仍相對有限，且計算量極為龐大，對資源提出了高要求。此外，部分複雜現象因其非平滑特性，難以直接應用微分方法處理，這進一步增加了技術難度。再者，訓練過程中收斂速度較慢，且存在擴展性問題（scaling issue），這些都是亟待解決的關鍵難題。儘管如此，該方法展現出了極高的可靠性和應用潛力，為提升世界模型指引了一個非常有發展潛力的路徑。

以上，我們介紹和展望了圖形仿真在世界模型訓練中的突出作用，具體提出了幾個新路徑。前述種種策略與手段，不僅各自具備強大潛力，更蘊含著融合共生、協同增效的無限可能。具體而言，我們可以靈活整合數據資源，將其融入基於模擬的訓練環境中，並利用微分方法實施監督學習等。在此，我繪製了一幅示意性綜合圖，旨在直觀展現這些元素的融合彙聚，系統性推動世界模型的優化與發展。可以看到，simulation 在其中處於核心地位，是我們在真實數據稀缺時，延續 Scaling Law, 構建世界模型的堅實基石。

總結，回到當下人工智能與圖形學領域，圖形仿真無疑是亟待突破的關鍵方向之一，其發展空間廣闊且充滿挑戰。從多物理現象的逼真與高效模擬，到交互性體驗的全面提升，再到各動態現象的可微分表達，都是當前面對的核心問題。

值得一提的是，英偉達黃仁勳先生在 Siggraph 主題報告的間隙時間與觀眾交流，特別提到了「微分物理」（differential physics）的重要性，他在這方面的呼籲我是非常認可的，我也拍下影片在朋友圈做了分享。我堅信，計算機圖形技術對現實世界的高逼真模擬仿真能力將賦能人工智能，幫助其突破當下大模型訓練 scaling law 的數據瓶頸，超越傳統的數據增廣，在建立新的路徑上有巨大的探索空間。

以上便是我今日分享的主要內容，期待與各位進行更深入的探討。謝謝大家。

你可能喜歡