對話深勢科技&北京科學智能研究院:AI for Science如何在學術界和產業界落地生根

作者|PRO郵箱|pro@pingwest.com

在本次直播對話中,我們邀請到了兩位在AI for Science領域的傑出專家——深勢科技生物醫藥工業軟件負責人鄭行和北京科學智能研究院算法研究員鄭大也,一起聊了聊AI for ScienceAI與傳統AI的不同之處。

AI在科學領域的應用,比如在微觀世界的模擬,新材料的設計,還有藥物的研發,這些都讓我們看到了AI for Science的巨大潛力,AI for Science正在推動跨學科的合作和創新。

我們討論了AI在科研中面臨的挑戰,比如數據的質量和數量問題,以及我們如何用聰明的算法和強大的計算能力來解決這些問題。還有科研創新中數據驅動遇到的那些坑,以及我們怎麼一一填平這些坑。

從實驗室里的瓶瓶罐罐到產業界的大生產,學術界怎樣邁出創新的第一步,產業界又如何讓這些創新落地生根。

我們探討了AI如何促進學術界和產業界的合作,以及它在解決數據共享和時效性問題上的妙用。

AI 和AI for Science的區別

鄭行:AI領域,圖像和語音識別工具依賴大量數據來訓練模型,這種方法在工業界應用廣泛。然而,科學領域的數據通常來源於實驗室,數據量和質量可能無法與工業界相比,使得傳統依賴大數據的AI方法在科學領域不太適用。AI for Science的關鍵在於利用科學家總結的豐富規律和經驗,這些通常以方程和公式形式存在,幫助AI理解世界的運作方式。

這樣,AI for Science能夠在數據量較少的情況下,訓練出適用於特定科學場景的有效模型。與傳統AI應用相比,AI for Science更側重於學習科學原理,而不僅僅依賴數據驅動,這是它的主要區別和優勢。

劉雨琦我們宏觀世界是先有數據,然後標註、總結規律,再訓練模型,但Science的領域,它剛好是反過來的流程。科學界會有一些沉澱,我們再把它反過來用一些少量標註的數據去訓練模型就會更高效。

在AI for Science里AI 的難度在哪裡?

鄭大也AI領域,目前最大的瓶頸並非技術本身,而是數據的缺乏。不同問題需要不同種類的數據,而這些數據的獲取可能代價巨大。AI能夠利用已知材料的數據,對未經過訓練的新材料進行預測,並且取得了良好的結果。這表明AI工具在材料研究領域已經非常強大。儘管AI在泛化性方面已經取得了進步,但仍有進一步提升的空間。研究者們正在探索新的算法,以期實現更好的泛化性,使AI能夠在更廣闊的維度和更複雜的情況下有效工作。

鄭行科學領域的實驗室數據通常數量有限且質量不穩定,受環境條件影響可能出現偏差。這給AI for Science帶來了小樣本或zero-shot學習等挑戰。為應對這些問題,我們採用物理知識融入AI模型設計,如在分子3D模型中加入不變性原理,以減少對大量數據的依賴。

此外,科學計算模擬可以生成大量多模態數據,儘管這些數據與實驗室數據存在差異。構建和訓練這些模型需要強大的算力,並且需要優化模型的推理精度和訓練速度,以適應科學計算數據生成的緩慢性。

鄭大也:AI for Science 可以幫我們解決科研數據問題,讓我們能更深入地探索自然規律。雖然我們有很多科學知識,但把這些知識用在實際生產,特別是在微觀層面,還是挺難的。

AI工具幫我們用低成本把基礎規律用在模型上,國內也在這塊創新,但我們需要一個強大的軟件平台和社區來支持。實驗室的數據和我們要預測的材料差距很大,有時候我們甚至不知道這些材料存不存在。我們想通過計算模擬來發現新材料,這就得用到第一性原理計算,用基本的物理方程來預測物理性質,好讓新材料在實驗中快速做出來。

ABACUS國產開源密度泛函軟件就是一個典型的例子,作為高精度第一性原理數據生產工具,ABACUS已在近百種材料研究中發揮著作用。

劉雨琦現在實驗室的數據和模擬的數據在整個AI應用的佔比大概是什麼樣的比例?這兩類的數據都在同樣一種方法下面去做,還是說會被應用在不同的場景和方向?

鄭大也實驗室數據和模擬數據雖然都重要,但它們之間存在顯著差異。模擬數據訓練出的模型與實驗數據訓練的模型採用不同的方法,但可以協同解決科學問題。

大原子模型主要依賴模擬數據,用於預測元素週期表中的微觀構型,這些在實驗中難以實現。模擬的優勢在於能快速產生大量數據,例如,利用超級計算機在幾天內完成數百萬次的模擬,遠超實驗能力。

劉雨琦我們現在有一些這樣的案例,比如說它其實並不存在於實驗室里,而是我們模擬推測出來的一些數據,然後我們又應用在了這樣的大模型的訓練的過程中,現在有沒有一些這樣的案例出來了?

鄭大現在這方面的案例還是比較少的,最大的瓶頸還是在於現在AI的工具還是不夠。基於這樣的瓶頸,我們才開發了這樣的一個大原子模型。這個模型能夠處理從幾個原子到上萬甚至百萬原子的尺度,但即便如此,這個尺度對於實際的實驗結果來說還是偏小。所以可能還會有一段的開發過程,我們才能夠真正把它帶到一些有限元分析的真正宏觀的工具中去。

劉雨琦也有一個大原子模型吧,DPA有什麼區別呢?

鄭行DPA這個項目是基於DeepModeling社區,經過北京科學智能研究院、深勢科技、北京應用物理與計算數學研究所等 29 家單位的 42 位合作者的通力協作開展的。我之前說的大原子模型,英文名叫OpenLam,也就是Open Large Atomic ModelDPA就是這個模型的一個節點工作和重要組成部分

我想再多補充一點的是,在工業設計,比如汽車和飛機制造,風洞模擬這些技術已經很成熟了,但微觀領域的材料和分子模擬,大家就不太熟悉,因為它們不像宏觀物體的氣流那樣直觀。

實際上,從上個世紀開始,科學家就用計算機模擬來研究分子和原子,預測它們組成材料後的行為。這種研發模式是先在計算機上預測,然後選幾個預測結果做實驗驗證。隨著AI技術的發展,我們進入了一個新的時代。以前計算機搞不定的大計算,現在AI能搞掂了。AI不僅能處理更大的體系,還能做更長時間的模擬,讓我們能更深入地探索微觀現象和宏觀現實之間的關係。

生成式AI給AI for Science帶來了什麼? 

鄭大也生成式AIGPT在技術路線上給予的啟發可能比其直接應用更大。預訓練大模型的概念和架構,例如transformer技術,為AI for Science領域帶來了新的模型設計思路,並促進了模型在不同領域的應用和優化。同時,生成式大模型在解決人才瓶頸方面可能更有幫助。

AI for Science作為一個跨學科領域,需要AI與數學、物理、化學、生物等科學領域的結合。生成式AI能夠快速提供背景知識,幫助來自不同領域的從業者快速瞭解新領域的基礎知識,從而加速跨學科學習過程。生成式AI在日常開發和科研模式上帶來的變化是巨大的。研究人員用GPT這樣的工具,能快速獲取新領域的背景知識和專家信息,瞭解領域常識,確定學習路徑。

鄭行生成式AI在科學領域的應用確實面臨挑戰。語言模型如GPT可能會產生幻覺或者不準確的答案,這對於科研的精確性要求來說是個問題。此外,計算模擬生成的虛擬數據需要在現實世界中得到驗證,比如將模擬生成的材料或分子實際製造出來,這在化學合成中是一個挑戰。

儘管如此,生成式AI在科學領域仍有發展潛力,它可以用於逆合成方法預測、實驗條件預測,以及與自動化儀器結合進行批量合成。此外,生成模擬但有意義的數據來訓練其他AI模型也是一個有趣的應用方向,比如將分子數據轉化為圖像數據,以輔助其他科學領域的AI模型訓練。

在AI for Science的領域,是否會發展出通用大模型?

鄭行科學計算需要在計算速度和結果精度之間找到平衡。目前,我們還不能同時兼顧兩者。例如,在宏觀尺度上,牛頓力學可以快速解決問題,但在微觀尺度上,這種方法就不夠用了。儘管未來我們可能會有足夠的計算資源來構建高精度的大模型,但目前這還做不到。

鄭大也儘管物理學家追求建立一個統一的大模型來解釋自然界的所有現象,但這一目標一直沒有做到。目前,我們只能在已知的領域內解決問題,並利用這些知識在實際應用中取得進步。儘管前路漫長,但我們已經取得的成就為未來的探索和應用奠定了基礎。

數據驅動的科研創新有哪些痛點和解決方案?

鄭行我們的工作更多是面嚮應用,比如為電池研發企業或藥企打造所需的功能。這些企業並不直接需要大原子模型本身,而是需要高精度的計算方法來對應實驗結果。我們使用大原子模型(DPA -2)進行分子離場的調優。這項工作已經發表。雖然簡化的分子離域方法成本較低,但在精確度上不如量子計算。

為瞭解決這個問題,我們使用量化計算來調優分子離場,使其在特定場景下的計算結果接近量化計算的精度,提高推理速度,降低成本。通俗的講,企業側需要的是具備上述能力的「產品」。例如,我們看到的是代碼數字,企業看到的是可視化的操作界面。

鄭大也:我們研究院的主要工作還是在怎麼去更好地去構建大原子模型。現在大原子模型已經可以覆蓋合金、動態催化等領域,並且可以通過添加少量第一性原理數據,在特定場景下蒸餾出有用的簡化小模型,以解決實際問題。對於尚未覆蓋的場景,需要使用第一性原理計算軟件來提供新數據,擴展大原子模型的能力邊界。

為了將大原子模型應用到新場景,如磁性計算,必須確保模擬結果與實驗結果一致,包括磁化曲線、各向異性、磁構型和磁疇動力學結果。

只有當模擬與實驗數據完全匹配時,大原子模型才能成功應用於新領域。科學計算需要持續的軟件支持和強大的硬件基礎,即算力。軟硬件的結合是生產高精度數據、推動AI與科學領域發展的關鍵。

劉雨琦是說我們先基於學術界的一些數據,把基礎模型做出來,然後在產業裡面去做實驗,對這個模型進行調優麼?

鄭行模式有很多,也有企業願意跟我們分享它的數據,但是其實對企業,比如說藥企,其實每一個分子都是非常寶貴的,它有專利保護,所以不一定我們每一次都能夠接觸到。

從實際應用角度來說,第一個是文獻專利,廣泛收集我們能夠使用到的數據,從裡面去提取這些對應的數據進行研究。另外一方面,在大原子模型基礎上,針對特定場景使用他們關心的數據進行調優。

鄭大也學界相對於產業界來說,心態更加開放。開源軟件和社區的建設有助於團結更多的人,促進知識的共享和協作。痛點主要還是來自於時效性的問題,研究者可能需要等待文章發表後才願意公開數據,因為存在文章投稿和審稿週期。物理化學方向的審稿週期可能較長,而AI方向的審稿時間相對較短。文章發表後,公開相關數據的壓力會小一些。

另一方面,學界產生的數據種類繁多,不同課題組的研究方向可能完全不同,很少有一份數據可以被所有課題組使用。這種多樣性導致收集到的數據之間的差異性很大。使用大原子模型將這些數據集合在一起,學習其中的科學知識,並將其應用於新場景時,面臨很大的挑戰。

劉雨琦: 面對時效性等問題怎麼解決?是否要構建類似於生態一樣的東西,讓研究者們可以通過這些工具來跟我們共享數據?

鄭大也學術界對於時效性相對沒有那麼敏感,科學問題是客觀存在的,數據即使過了一段時間仍然有價值,且包含了深厚的知識積累。學術研究中,數據收集和模型訓練是個耗時的過程。研究者可以在這一過程結束後,選擇適當時機公佈數據。

同時,他們還可以利用這段時間迭代和優化AI算法,確保在數據公開時,算法和模型都是最優的。一旦這些經過優化的AI模型和數據公開,它們就能被更多的研究團隊和企業使用,這樣不僅推動了科學研究,也有助於科研成果在產業界的應用和推廣。

劉雨琦我們現在和學界是怎麼合作的,以及學界對於AI for science做研究的這件事情的態度和熱情是怎麼樣的?

鄭大也: 我們希望業內真正能把AI for Science用起來,找到最佳的結合點。這個時候我們跟他們合作,向他們推薦先進的算法或軟件,並結合國產硬件,幫助解決他們之前難以解決或知道如何解決但不清楚具體實現路徑的問題。他們也可以把生產出來的數據用來迭代AI模型,這個時候實現的是共贏。

鄭行: 從數據角度來看,數據安全是產業界非常重視的。例如,一個分子可能價值連城,因此大多數情況下數據分享比較「封閉」。合作通常從在內部數據或測試集上測試方法開始,只有在證明有效後,才可能討論使用內部數據構建定製化模型或將方法部署以供對方使用自己數據訓練模型。

產業界數據量有限且質量不一,如生物醫藥領域數據多樣性和不一致性,以及實驗條件變化導致的偏差,這些都給AI建模帶來挑戰。

此外,文獻和專利中蘊含的大量數據尚未充分利用,國外數據庫雖數據豐富但成本高昂,且存在使用限制。大模型的發展為從文本中提取數據提供了新途徑,但也帶來了分子式書寫多樣性和多模態數據提取的新問題。

從商業角度來看,產業界不太關心使用的是物理方法、AI方法還是人工標記方法,他們更關注結果的準確性和成本效益。只要AI方法在效果驗證上是可行的,產業界就會更加開放接受。

劉雨琦數據底層比較複雜的時候,對於算法就提出了更高的要求,我們是怎麼解決這個問題的?

鄭行我們還是會嘗試將物理知識融入建模里去。利用置換不變性和平移不變性等概念,即使在數據量有限的情況下也能訓練出效果良好的模型。我們最近有個叫Uni-pKa的工作,它預測分子的質子化狀態,即分子以不同形式存在的概率。這在物理上是一個能量分佈問題,能量較低的結構更穩定,出現的概率也更高。

傳統機器學習方法在建模時可能直接預測最可能的狀態,這可能導致模型在訓練數據偏向某一狀態時無法準確預測其他狀態,有時需要為不同狀態單獨建模。通過基於物理原理的建模方法,可以擴展模型的應用範圍,如在不同pH條件下的預測。同時,確保物理守恒定律的滿足對於模型的準確性和可靠性至關重要。

鄭大也:關於數據方面的挑戰,科研人員常從文獻中尋找靈感,如果能夠將文獻中的實驗結果或理論計算結果提取出來,並加入到AI模型中,會極大豐富數據資源和提升AI的能力。面對文獻中可能僅有少量數據或描述的情況,可以使用第一性原理軟件來模擬和複現實驗結果。這樣,可以確定需要何種量級精度的計算才能達到複現實驗結果的要求。

劉雨琦產業界確實很需要學術界的幫助,但同時我們也好奇,為什麼學術界要推動AI for Science商業化,讓它落地,跟產業結合。站在學術界的角度,他們是怎麼看待這件事的?

鄭大也:AI for Science為學術界提供了強大的研究工具,尤其在微觀領域,AI能高效地解決高精度模擬難題。產業界對這些工具感興趣,但成本和實用性是其顧慮。學術界若能提供快速篩選有效方案的工具,將為產業界節省時間和成本。儘管產業界願意嘗試,但學術工具的實用性和工程化水平是關鍵。我們研究院正致力於解決這些問題,以確保軟件在產業界的穩定應用,從理論到實踐還需深入探索和工程化。

劉雨琦AI是否有能力預測在實驗室進行的重覆實驗過程中,例如在第640次實驗時,可能出現的特定結果?這樣的預測能力可以幫助研究人員提前優化實驗方案,提高研發效率。從消費者的角度出發,我關心的是AI技術是否有可能降低目前高昂的製藥成本。這雖然是一個商業問題,但它直接關係到消費者的利益。我想知道,AI技術會不會把很高昂的藥物研發的成本降下來,讓這些藥物比較普適化,會不會帶來一個整個產業鏈上的一個改變?

鄭行我們的計算方法Uni-FEP,基於自由能微擾理論、分子動力學和增強采樣算法,具有化學級別的精度,與實驗室結果相匹配。這個方法的應用,並不是取代實驗,而是通過模擬預測來提高實驗的成功率和效率。例如,如果以往我需要進行100次實驗來得到一個成功的結果,現在可以先用UP進行一萬次模擬,篩選出最有潛力的100種藥物進行實驗,這樣大幅提高了成功率。這種方法不僅提升了效率,也降低了成本。原本需要實驗100次,現在可能只需要實驗計算出的前10種,成本降低了十倍。

AI和物理模擬方法雖然有局限性,但它們作為工具,可以擴大我們的探索範圍,減少實驗成本,最終幫助提升研發效率。藥物研發是一個複雜且耗時的過程,通常需要投入巨大的時間和資金。但現在,借助AI技術,一些公司已經能夠顯著縮短研發時間,從幾年縮短到幾個月。這表明AI技術在藥物研發中發揮了積極作用,雖然還需要時間來驗證其長期效果。

產業界關注的是結果,而不是使用的具體技術。只要AI能夠帶來實際效益,幫助企業推進研發進程,就是積極的信號,也是我們繼續發展AI技術的強勁動力。

“目前在AI for Science的發展進程中,我們走到了哪個階段,接下來的研究和發展計劃包括哪些關鍵目標或步驟?”

鄭大也: 我們現在在AI for Science領域確實遇到了一些挑戰,特別是在底層的第一性原理計算上。我們的目標是找到一種方法,既能保持計算的高精度,又能儘量減少對算力的需求。簡單來說,我們想要用更少的資源,得到更準確的結果。

我們正在做的,就是利用AI技術來提升我們的計算能力。比如說,我們希望能夠用AI來預測電子的行為,比如它們的電荷密度的分佈,自旋狀態,或者它們的光學性質。這些都是非常精細的物理性質,對於理解材料的性能至關重要。

另外,我們還想看看材料在電場或磁場作用下的反應。這可以通過AI來模擬,幫助我們更好地理解材料在實際使用中的表現。

我們還有一個大計劃,就是把我們通過AI得到的這些高精度數據,整合到我們的大原子模型中。這樣,我們就能在更大的尺度上,更全面地模擬和預測材料的行為。

最後,我們當然要確保這些計算結果在實驗中也能站得住腳,這樣我們才能說我們的AI方法真正有效。

我們正在使用的ABACUS軟件,是我們為AI提供大量第一性原理計算數據的一個強大工具。我們會繼續優化它,讓它能夠產生更精確的數據,幫助我們訓練出更好的材料模型。

鄭行我覺得歷史是留給後人評述的,我們現在可能很難站在現在這個時間點說AI for Science在歷史上走到了什麼程度。AI for Science是一個相對較新的領域,但已經在特定場景中得到應用並提升了工業生產和研發效率。然而,作為一個新興領域,它在不同場景下的應用程度不一,仍有許多需要專攻和驗證的地方。如果將AI for Science比作GPT模型的發展歷程,目前可能處於GPT 22.5的階段,意味著還在使用大量數據訓練模型,並通過其他方法優化以適應特定應用。

AI技術的發展歷史悠久,從早期的機器學習到深度學習,再到預訓練模型,每一步都伴隨著算力的提升和數據的積累。AI for Science雖然起步較晚,但發展迅速,已經在實踐如大原子模型等先進技術。所以如果回溯到science的場景來說的話,我覺得現在其實已經走的很快了,我們不看絕對的發展水平,而看其發展速度(斜率),所以這個領域還是非常快速發展的。

AI for Science領域相比起AI來說需要更多的交叉的背景,這也意味著更大的機遇以及更多的興趣。