自動化學實驗室成真?微軟華人學者領銜研發材料生成模型,已發現277個穩定獨特新穎材料結構

北京大學本科校友、美國麻省理工學院博士畢業生謝天,目前是英國劍橋 Microsoft Research AI for Science 的首席研發經理。

本科和博士期間,其曾先後學習化學專業和材料科學與工程專業,後在麻省理工學院 CSAIL 實驗室從事博後研究,並曾在 DeepMind 和 Google X 實習。

正是這樣的「AI+Science」經歷,讓謝天在現單位 Microsoft Research AI for Science 工作期間結出一顆 AI 碩果。

圖|謝天(來源:謝天)圖|謝天(來源:謝天

當地時間 1 月 16 日,謝天和同事在最新發表的 Nature 論文中,展示了一款名為 MatterGen 的基於擴散的 AI 生成模型,該模型可以生成穩定、多樣的無機材料,並且可以針對逆向材料設計的廣泛下遊任務進行微調。微軟公司 CEO 薩提亞·納迪拉維杜華(Satya Nadella)也專門在 X 介紹了這一成果。

圖 |  微軟公司 CEO 薩提亞·納迪拉維杜華(Satya Nadella)的 X 截圖(來源:X)圖 |  微軟公司 CEO 薩提亞·納迪拉維杜華(Satya Nadella)的 X 截圖(來源:X)

MatterGen 通過引入原子類型、坐標和晶格的聯合擴散過程, 解決了此前方法的局限性。

與已有的同類生成模型相比,MatterGen 生成更新穎、更穩定結構的可能性提高兩倍,並能將所生成材料的穩定性、獨特性和新穎性(S.U.N.,stable, unique, and novel)的百分比提高一倍多,同時更加接近局部能量最小值(註:局部能量是指在特定區域內能量的分佈和變化情況)。

通過針對 MatterGen 進行微調,可以生成能夠滿足各種屬性目標約束的 S.U.N. 結構,其性能優於傳統的機器學習力場方法、隨機結構搜索方法和機器學習輔助篩選法。

(來源:arXiv)(來源:arXiv

通過重覆單元來定義晶體材料

研究中,謝天等人通過重覆單元(即晶胞)來定義晶體材料,這些重覆單元包括原子類型 A(即化學元素)、坐標 X 和週期晶格 L。對於每個組件他們都定義了一個破壞過程(corruption process)。

然後,他們通過縮放噪聲幅度,來調整笛卡爾空間中單元大小對於分數坐標擴散的影響(註:‌笛卡爾空間是一種二維或三維坐標系)。

原子類型會在分類空間中擴散,單個原子則會被破壞成掩蔽狀態(masked state)。為了逆轉破壞過程,謝天等人使用了一個分數網絡,該網絡可以輸出原子類型、坐標和晶格的等變分數,從而繞開從數據中學習對稱性的需要。

為了設計具有所需屬性約束的材料,該團隊引入了適配器模塊(adapter modules),以用於在附加數據集上針對評分模型進行微調。適配器模塊能夠根據給定的屬性標籤改變模型的輸出。研究中,謝天等人將這種方法應用於多種類型的約束,借此生成了一組微調模型。

當微調模型與無分類器引導(classifier-free guidance)加以結合,就能引導 MatterGen 的生成趨向目標屬性約束(aim constraint attributes),從而能夠生成新的材料,並讓材料擁有目標化學成分、對稱性以及磁密度等標量特性。

(來源:arXiv)(來源:arXiv

可生成 1000 個結構,獨特結構百分比為 100%

如前所述,該團隊使用 MatterGen 生成了 S.U.N. 材料結構。同時,他們還針對所生成結構的質量和多樣性加以分析。

為瞭解釋材料結構的無序效應,他們基於全新提出的有序-無序結構匹配器來匹配結構(註:‌無序效應‌是指在沒有規則或隨機性的系統中,由於原子或分子的無序排列和運動,導致系統表現出特定的物理性質和化學性質變化的現象)。

而為了評估穩定性,該團隊針對 1024 個生成結構進行密度泛函理論計算。結果發現,MatterGen 所生成的大多數結構都是穩定的,並且非常接近密度泛函理論局部能量最小值。

當生成 1000 個結構時,獨特結構的百分比為 100%,在生成 100 萬個結構後僅降至 86%,而新穎性則能穩定在 68% 左右。

該團隊還將 MatterGen 與之前的材料生成模型進行基準測試,借此發現 MatterGen 能以更高的速度生成 S.U.N. 材料,並且其生成結構在數量級上更接近其局部能量最小值。

(來源:arXiv)(來源:arXiv

在 V-Sr-O 的組合外殼上發現五種新結構

在目標化學體系(如 Li-Co-O)中找到最穩定的材料結構,對於確定評估穩定性所需的真正凸包至關重要(註:凸包是一個計算幾何中的概念),這也是材料設計的主要挑戰之一。

研究中,謝天等人了評估了 MatterGen 探索目標化學系統的能力。具體來說,他們針對九個三元、九個四元和九個五元化學體系進行基準評估。

對於這三組中的每一組,他們從以下類別中隨機選擇三個化學系統,分別是已充分探索、部分探索和未探索。

借此發現,MatterGen 生成的 S.U.N. 結構百分比高於傳統方法,並能在五元系統上實現更好的性能。值得注意的是,MatterGen 在五元系統中的強大性能僅用 10240 個生成樣本即可實現。

研究結果還表明,MatterGen 在 V-Sr-O 的組合外殼上發現了五種新結構,而採用其他兩種傳統方法分別只能發現四種和兩種。

(來源:arXiv)(來源:arXiv

發現 277 個 S.U.N. 結構,是傳統方法所能發現結構數量的兩倍

在碳捕獲技術、太陽能電池或半導體技術中,經常涉及到篩選具有目標磁性、電子性能和機械性能的材料。傳統的基於篩選的方法一般是從一組候選者開始,然後選擇具有最佳屬性的候選者。然而,這種篩選方法無法探索已知材料之外的結構。

而 MatterGen 在三個單屬性逆向設計任務中,均展示出能夠直接生成具有目標約束的 S.U.N. 材料的能力。這些材料具有磁性、電子性能和機械性能等多種特性,並能讓 MatterGen 產生不同程度的可用標記數據,從而能夠用於微調模型。

以其中一個任務為例,謝天等人希望產生具有高磁密度的材料。為此,他們在 60.5 萬個具有密度泛函理論磁密度標籤的結構上微調模型,借此生成了目標磁密度值為 0.20˚a−3 的結構。

而在另一個任務中,他們試圖尋找具有特定電子特性的材料,為此他們在 42000 個具有密度泛函理論帶隙標籤的結構上微調模型,然後針對目標計算帶隙值為 3.0eV 的材料進行采樣。

借此發現,MatterGen 能夠找到多達 47 個磁密度高於 0.2˚A−3 的 S.U.N. 結構。

與此同時,MatterGen 能以幾乎恒定的速度不斷地發現 S.U.N. 結構。通過給定 500 個密度泛函理論屬性計算的預算,該團隊發現了 277 個 S.U.N. 結構,這幾乎是傳統方法所能發現結構數量的兩倍。

(來源:arXiv)(來源:arXiv

從本科時埋下「AI+Science」的種子

本次論文的題目為《無機材料設計的生成模型》(A generative model for inorganic materials design),謝天是共同通訊作者。前面提到謝天的本科專業和博士專業均和材料化學有關。其個人主頁介紹稱,他領導了 MatterGen 的開發。

(來源:Nature)(來源:Nature

他本次能和同事成功研發 MatterGen 並在頂刊發表論文,也並非一蹴而就,而是基於他和同事的此前積累。此前,他還曾參與開發過一款名為 MatterSim 的能夠加速材料特性模擬的 AI 軟件。

謝天在讀博和博後期間,就已開始耕耘「AI+Science」這一領域。比如:2018 年,他開發過一款專門為材料設計打造的圖神經網絡 CGCNN;2021 年,他又開發一款名為 CDVAE 的材料生成模型。

2022 年,他正式加入 Microsoft Research AI for Science,目前他在這裏領導著一個由科研人員、工程師和項目經理組成的跨學科團隊,旨在通過用 AI 來加速新材料的設計,最終助力於儲能、碳捕獲和催化等領域的發展。

參考資料:

https://doi.org/10.1038/s41586-025-08628-5

https://txie.me/

https://www.linkedin.com/in/txie-93/?originalSubdomain=uk

運營/排版:何晨龍