人大北航新算法登Nature子刊:破解複雜時空物理場重建難題
孫浩團隊與楊立軍團隊合作發文,提出預測複雜系統的新方法。
中國人民大學高瓴人工智能學院長聘副教授孫浩團隊與北京航空航天大學楊立軍教授團隊合作,近日在Nature子刊Nature Machine Intelligence(《自然-機器智能》)發表題為「Learning spatiotemporal dynamics with a pretrained generative model」的文章,提出了一種基於擴散生成模型的動態系統預測算法,稱為S3GM(Sparse-Sensor-assisted Score-based Generative Model)。
該方法融合了物理先驗知識與實驗測量數據,旨在解決現代科學與工程中的一大關鍵挑戰:從稀疏的傳感器測量數據中重建複雜的時空物理場。
研究團隊展示了S3GM即使在數據極為不完整和有噪聲的情況下,也能夠準確預測燃燒、流動、氣候演變及其他眾多物理系統的動態過程,為動力系統建模提供了新的思路。
文章共同第一作者為李澤宇(北航)、韓旺(北航),共同通訊作者為孫浩(人大)、丹恩嶽(北航)、楊立軍(北航)。
論文鏈接:https://www.nature.com/articles/s42256-024-00938-z
這是人大高瓴人工智能學院師生團隊在《自然-機器智能》發表的第二篇論文。此前,孫浩團隊已在《自然-機器智能》刊發題為「Encoding physics to learn reaction-diffusion process」的論文(Nature Machine Intelligence, 2023, 5: 765-779)。
如何從稀疏的傳感器測量數據中重建複雜的時空物理場是現代科學與工程中的一大關鍵難題。
比如,航空航天發動機測試中,傳感器的數量、類型、分佈以及測量信噪比等往往非常有限,難以獲取發動機內部完整的物理過程。傳統重構方法難以對複雜的動力學進行精確重構,而現有的深度學習方法在面對不同的傳感器配置時往往難以泛化。
為瞭解決這一難題,研究團隊提出了一種基於擴散生成模型的動態系統預測算法,稱為S3GM。S3GM模型分為兩個階段(圖1):
圖1 用S3GM建模動力系統的示意圖。S3GM模型分為預訓練(子圖c)和生成(子圖d)兩個階段
在第一階段,S3GM在通過物理先驗知識獲取的時空數據上進行基於擴散模型自監督預訓練,聯合建模系統狀態變量和參數之間的複雜動力學關係,並通過時空分離的注意力機制來減緩算力消耗。
在第二階段,利用預訓練的擴散模型作為先驗,結合稀疏的傳感器數據進行後驗采樣來對動力系統進行重建和預測。為了生成滿足觀測的動力系統隨時間演化的狀態變量和參數,模型將完整的待重構序列分為兩段子序列,其中一段直接依賴於觀測數據而另一段為外推序列(不直接依賴於觀測數據)。
對於依賴於觀測數據的子序列,S3GM並行生成多個樣本,並通過添加觀測一致性和序列一致性約束來生成連續幀;對於不直接依賴於觀測數據的子序列,S3GM採用自回歸形式逐段生成以保證最優的效果。這種後驗采樣的方法不僅可以處理各種不同的傳感器分佈、類型等,還可以處理任意長的時間序列。
圖2 Kuramoto-Sivashinsky系統的重構與預測。上、中、下三行代表模型在三種不同的觀測類型下的重構/預測結果
研究人員在多個不同的物理系統上驗證了S3GM的有效性,結果囊括了反應擴散系統(圖2)、湍流系統以及真實的氣候觀測數據(圖3),在每個例子中測試了各種不同的觀測數據形式(包含任意時空分佈的稀疏測量、統計量測量以及未來時刻預測等),S3GM可以根據相應的觀測信息對動力系統的狀態變量和參數進行有效重構而無需重新訓練。
這意味著S3GM相比於傳統的端到端訓練方式不僅泛化能力更好,而且面對高稀疏性以及噪聲數據具有更好的魯棒性。
此外,S3GM利用僅在仿真數據上預訓練的模型,成功從真實流場的極稀疏測量數據中重構出流場信息(圖4),證明了該模型即使在極端數據稀疏和噪聲條件下的泛化能力和魯棒性。