AI卷翻科研,DeepMind 36頁報告:全球實驗室被「AI科學家」指數級接管

過去兩年,AI主打用戶增長,成功實現了大眾化普及。畢竟,拉新才是商業王道。

然而,如今AI日常的應用已經快捲到天花板了。對於世界上絕大多數人的普通查詢,許多LLM都能給出相當不錯的回答。

速度、流暢性已經足夠滿足絕大多數用戶的需求。即便再優化,提升空間也有限——畢竟這類問題的技術難度不高。

或許,未來真正值得關注的是科學和工程領域。

OpenAI科學家Jason Wei最近發帖預測:在接下來的一年內,AI的關注重點可能會從日常使用轉向科學領域。

他認為,未來五年,AI關注的重點將轉向硬核領域——用AI加速科學和工程。因為這才是真正推動技術進步的引擎。

普通用戶的簡單問題,改進空間已經不大了。

但每個科學前沿領域都有巨大的改進空間,而AI正好可以發力,去致力於解決那些能推動科技飛躍的「1%的頂尖問題」。

AI不僅有回答這些問題的潛力,還能激發人們去思考更大的挑戰。

而且,AI的進展還能加速AI本身的研究,幫助自己變得更強。AI的進步是複利的,可謂是正反饋之王。

說白了,未來五年就是「AI科學家」、「AI工程師」的時代。

DeepMind最近發的一篇論文也暗示了這一趨勢:全球各地的實驗室里,科學家們對AI的使用正以指數級增長。

報告地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Assets/Docs/a-new-golden-age-of-discovery_nov-2024.pdf

AI加速科學創新發現的黃金時代

如今,每三位博士後研究員中就有一位使用大語言模型來協助完成文獻綜述、編程和文章撰寫等工作。

今年的盧保化學獎也出乎了所有人的意料,頒發給了AlphaFold 2的發明人Demis Hassabis和John Jumper。同時,這也啟發了大量科學家將AI應用到自己的科學領域中,以求得更多的創新性發現。

過去半世紀,科學家人數猛增,僅美國就翻了七倍多,但科技帶來的社會進步卻放緩了。

原因之一是,現代科學家面臨的規模和複雜性挑戰越來越棘手。

不過,深度學習擅長搞掂這種複雜局面,還能大幅壓縮科學發現的時間成本。

比如,傳統X射線晶體學花幾年、燒10萬美元搞掂一個蛋白質結構,而AlphaFold直接免費給你2億種預測,秒殺傳統方法。

五大機遇

對於在不同科學研究階段難以突破研究瓶頸的科學家們來講,把握住使用AI的關鍵機遇,或許就能促進誕生強有力的新發現。

五個能夠利用AI來促進科研的機遇五個能夠利用AI來促進科研的機遇

1. 知識——改變科學家獲取和傳遞知識的方式

科學家要想推動新發現,必須掌握一套日益專業化且指數增長的知識體系。

這種「知識負擔」讓顛覆性發現越來越倚重年長科學家和頂尖大學的跨學科團隊,同時也導致小團隊獨立撰寫論文的比例持續下滑。

而且,大多數科學成果仍以晦澀難懂、英語為主的論文形式分享,限制了政策製定者、企業和公眾的關注與興趣。

如今,科學家和公眾都能借助LLM破局。

例如,有團隊用GoogleGemini一天內從20萬篇論文中提煉出相關見解;普通人也可用LLM輕鬆摘要和問答,獲取專業學術知識,瞬間拉近與前沿科學的距離。

2. 數據——生成、提取和標註大型科學數據集

儘管我們處於數據爆炸時代,許多自然和社會領域中,科學數據卻嚴重匱乏,如土壤、深海、大氣層和非正式經濟。

AI正助力改變這一現狀。它能減少在DNA測序、檢測樣本中具體細胞類型或捕捉動物聲音時可能發生的噪聲和錯誤。

科學家們還可以利用LLM越來越強的多模態能力,從科學出版物、檔案文件以及影片圖像等資源中提取非結構化的科學數據,並將其轉化為結構化數據集,以做後續研究。

AI還可以幫助為科學數據添加科學家所需的輔助信息。例如,至少三分之一的微生物蛋白質在執行功能中的細節未能被可靠地註釋。

經過可靠性評估驗證的AI模型也可以作為新的合成科學數據的來源。例如,AlphaProteo蛋白質設計模型是在AlphaFold 2中超過1億個AI生成的蛋白質結構以及蛋白質數據庫中的實驗結構上進行訓練的。

3. 實驗——模擬、加速並指導複雜實驗

科學實驗常因成本高昂、複雜且耗時難以執行。還有一些實驗因為研究人員無法獲得所需的設施、人力或實驗材料而無法進行。

核聚變就是一個典型例子。它有望提供一種幾乎無限、無排放的能源來源,並可能支持諸如海水淡化等高能耗的創新性大規模應用。但控制等離子體所需的托卡馬克反應堆複雜昂貴。ITER原型從2013年建造,預計2030年代中期才開始實驗。

AI可通過模擬加速實驗進程。

一種方法是利用強化學習智能體來對物理系統進行模擬。例如,研究者與洛桑聯邦理工合作,用強化學習控制托卡馬克等離子體形狀,這一方法還可用於粒子加速器、望遠鏡等設施。

在不同學科中,利用AI模擬實驗的方式可能各不相同,但一個共同點是,這些模擬通常用於指導和優化現實實驗,而非完全替代它們。

以基因研究為例,普通人平均有9000多個錯義變異,大多無害,但少數會致病。現實中,僅能逐個測試蛋白質的影響。而AlphaMissense能快速分類7100萬潛在變異中的89%,幫助科學家聚焦高風險變異,加速疾病研究。

AlphaMissense對所有可能的7100萬個錯義變體的致病性的預測AlphaMissense對所有可能的7100萬個錯義變體的致病性的預測

4. 模型——建模複雜系統及其組件之間的相互作用

1960年,盧保獎得主物理學家Eugene Wigner感歎數學方程在模擬自然現象(如行星運動)中「出乎意料的有效性」。

但面對生物學、經濟學、天氣等複雜系統,傳統方程模型漸顯乏力,因為這些系統充滿動態性、隨機性,還常伴湧現和混沌,難以預測和控制。這些方程能提供非常有用但並不完美的近似,且運行這些方法也需要高昂的計算成本。

AI卻能從複雜數據中挖掘規律。例如,Google的深度學習系統能快速預測未來10天天氣,速度與準確性雙殺傳統數值模型。

同時,AI還能幫減緩氣候問題,如用AI預測潮濕區域的出現時間和位置,幫助飛行員避開會加劇全球變暖的凝結尾跡。

即便AI十分強大,它更多是豐富而非取代傳統的複雜系統建模。

例如,基於智能體的建模通過模擬個體行為者(如企業和消費者)之間的交互,來理解這些交互如何影響更大、更複雜的系統(如社會經濟)。

在傳統方法中,科學家需要事先規定這些智能體的行為方式。

如今,科學家可以利用大語言模型創建更靈活的生成式智能體,這些智能體能夠進行溝通和行動,例如搜索信息或購買,同時還能對這些行動進行推理和記憶。

科學家還可以利用強化學習研究這些智能體如何在更動態的模擬中學習和調整其行為,例如對於新的能源價格或疫情響應政策的反應。

5. 解決方案——為大規模搜索空間問題提出解決方案

很多重要的科學問題都伴隨著許多幾乎無法理解的潛在解決方案。

比如,生物學家和化學家需要確定分子(如蛋白質)的結構、特性和功能,才能設計出用作抗體藥物、降解塑料的酶或新型材料的一些新分子。

然而,要設計一種小分子藥物,科學家需要面對超過10^60種潛在選擇;要設計一種由400種標準氨基酸組成的蛋白質,則需要面對20^400種選擇。

這種大規模搜索空間不僅限於分子,還廣泛存在於許多科學問題中,比如尋找數學問題的最佳證明、計算機芯片的最佳設計架構等。

傳統上,科學家依賴直覺、試錯法、迭代或暴力計算的某種組合來尋找最佳分子、證明或算法。然而,這些方法難以充分遍曆龐大的搜索空間,從而無法發現更優的解決方案。

如今,AI能夠更好地探索這些龐大的搜索空間,同時更快地聚焦於最有可能可行且有效的解決方案。

今年7月,AlphaProof和AlphaGeometry2成功解決了國際數學奧林匹克競賽中六道題目中的四道。它們利用Gemini大語言模型架構,為給定的數學問題生成大量潛在解決方案,並結合基於數學邏輯的系統,迭代地實現接近最可能正確的候選解決方案。

AI科學家還是AI賦能的科學家?

即便AI系統的能力在不斷提升,其最大的邊際效益依舊會源於將其應用在能夠突顯其相對優勢的場景之中。

比如快速從海量數據集中快速提取信息的能力,以及幫助解決科學進步中的真正瓶頸問題;而非企圖讓人類科學家已擅長的任務實現自動化。

隨著AI推動科學變得更經濟高效,社會對於科學和科學家的需求也會隨之增加。

和其他行業不同,科學的需求幾乎是無限的,而科技也並不會降低對科學家的需求。新的進展總會在科學的版圖上開拓出全新的、難以預測的領域,AI亦是如此。

正如司馬賀所設想的那樣,AI系統自身也是科學研究的對象,科學家會在評估和闡釋其科學能力以及開發新型人類-AI 科學系統方面起到主導作用。

關鍵要素

這一部分,文章深入探討了實現「AI for Science」的幾個關鍵因素,並將其歸納為一個「AI for Science生產函數」的模型。

模型展示了如何利用AI推動科學研究和創新的不同階段以及需要關注的核心內容。

從科學研究的問題選擇(Problem selection)、模型評估(Evaluations)開始,通過計算資源(Compute)和數據(Data)這些基礎設施的支持,在開展研究過程中注重組織模式設計(Organizational design)和跨學科(Interdisciplinarity),形成成果,並最終通過採納(Adoption)將研究成果轉化為實際影響。底部的合作(Partnerships)、安全與責任(Safety & responsibility)貫穿始終,確保整個流程高效且符合道德規範。

雖然很多要素看起來直觀,但DeepMind的論文揭示了一些在實踐中重要的經驗教訓。

1. 問題選擇

科學進步的關鍵是找到真正值得解決的問題。

在DeepMind,科學團隊通常會先評估一個研究問題是否足夠重要,是否值得投入大量時間和資源。

DeepMind的CEO Demis Hassabis提出過一個思維模型:將整個科學視為一棵知識之樹。

那麼,最重要的是找到樹的根——像蛋白質結構預測、量子化學這些基礎性的「根源問題」,它們一旦得到解決,就能開枝散葉,解鎖全新的研究和應用。

而在這些問題當中,要判斷AI是否能帶來增益,我們需要尋找具備特定特徵的問題,例如巨大的組合搜索空間、大量數據,以及可用於衡量性能的明確目標函數。

許多最近的突破,就來自於重要科學問題和成熟AI方法的碰撞。

例如,DeepMind在核聚變研究的進展就得益於新發佈的強化學習算法——最大後驗策略優化(maximum a posteriori policy optimization)。

選對問題很重要,但問題的難度也得剛好。一個適合AI的問題,通常是能夠產生中間結果的問題。

如果問題太難,就沒法產生足夠的反饋推動進展。要做到這一點,需要靠需要直覺與實驗的結合。

2. 模型評估

科學AI研究中,模型的評估方法也很重要。

科學家常常通過基準測試、指標和競賽等評估方法來評估AI模型的科學能力。

如果設計得當,這些評估方法不僅可以用來跟蹤進展,還能激發方法創新,激活研究人員對科學問題的興趣。

不同的情況需要不同的評估方法。

比如,DeepMind的天氣預測團隊最初用基於幾個關鍵變量(如地表溫度)的「進展指標」來提升模型表現。

當模型達到一定性能水平時,他們採用了一個更全面的評估方法,其中包括1300多個指標。這些指標的設計受歐洲中期天氣預報中心(ECMWF)評價評分卡啟發。

團隊也發現AI模型有時會在某些指標上「作弊」,比如「雙重懲罰」問題——「模糊」預測(如預測降雨在較大地理區域內發生)比「精準」預測(如預測暴風雨的位置略微偏離實際位置)受到的懲罰更少。

為進一步驗證,團隊還評估了模型在下遊任務中的實用性,例如預測氣旋路徑的能力,以及表徵可能導致洪水的「大氣河流」(集中濕氣的狹窄帶)的強度。

最具影響力的科學AI評估方法通常是社區主導的,比如蛋白質結構預測競賽(CASP)。

該競賽自1994年由John Moult教授和Krzysztof Fidelis教授發起,每兩年舉行一次。CASP的目標是通過測試各參賽團隊的蛋白質結構預測方法的準確性,推動相關領域的技術創新,並加深對蛋白質摺疊和結構的理解。

不過,這也帶來了基準可能「泄露」到AI模型訓練數據中的風險,讓模型「作弊」,從而降低基準用於跟蹤模型進展的效用。

「作弊」問題暫時沒有完美的解決方案,但至少需要定期更新基準,鼓勵更開放的第三方評估和競賽。

3. 計算資源

計算資源是AI和科學發展的核心引擎,但也是節能減排的焦點之一。

AI實驗室和政策製定者需要從長遠視角平衡模型需求與效率提升。

比如,蛋白質設計模型小巧高效,而大語言模型訓練時計算密集,但微調和推理時所需計算量則比較少;通過優化數據或將大模型「蒸餾」成小模型,也可以進一步降低計算成本。

同時,也需要對比AI與其他科學方法的資源消耗。

例如,AI驅動的天氣預測模型儘管訓練耗費資源,但整體效率可能優於傳統方法。實證數據的持續跟蹤可以幫助明確這些趨勢,並為未來計算需求的規劃提供依據。

此外,計算戰略不應僅關注芯片供應的充足性,更需優先建設關鍵基礎設施和提升工程技能,以保障資源訪問和系統可靠性。然而,學術界和公共研究機構在這些方面往往資源不足,需要更多支持。

4. 數據

像計算資源一樣,數據是科學AI發展的基礎設施,需要持續開發、維護和更新。

人們常著眼於政策製定者推動的新數據集創建。

例如,2012年奧巴馬政府啟動的材料項目繪製了無機晶體圖譜,為DeepMind最近的GNoME項目預測220萬種新材料提供了數據支持。

但許多科學AI突破往往來自更有機的數據湧現,這些數據得益於有遠見的個人或小團隊的努力。

像當時Broad研究所的Daniel MacArthur領導開發的gnomAD遺傳變異數據集,為DeepMind的AlphaMissense項目提供了基礎。

還有,數學工具Lean最初由Leonardo de Moura開發,如今已成AI數學模型(如AlphaProof)的重要訓練資源。

這些案例說明,除了自上而下的戰略規劃,還需要激勵研究者在數據收集、整理和共享中扮演更積極的角色。

當前,許多濕實驗室的實驗數據因缺乏資金支持而被丟棄;而蛋白質數據銀行(PDB)的高質量數據則受益於期刊要求和專業數據整理員製定的統一標準。相比之下,基因組數據的整理因標準不一,則常需額外整合和清洗。

此外,還有許多高質量數據集完全未被利用,比如因許可限制無法公開的生物多樣性數據,或幾十年核聚變實驗的歷史數據。這些瓶頸無論是由於缺乏資源、時間,還是由於數據禁運期,都會阻礙AI在科學領域的潛力釋放。

5. 組織模式設計

學術界偏自下而上,工業界偏自上而下,但頂尖實驗室往往能找到二者間的平衡。

像巴爾實驗室和施樂帕洛阿爾托研究中心的黃金年代,就以自由探索的研究模式著稱。這也為DeepMind的創立提供了靈感。

最近,一批新興科學機構試圖從這些例子中汲取經驗,複刻這種研究模式。它們希望推動更多高風險、高回報的研究,削減官僚主義,為科學家提供更好的激勵。

這些機構致力於解決一些科學中規模過大、學術界無法承擔,但在工業界又不夠盈利的問題,例如擴展Lean證明助手,這一工具對AI數學研究至關重要。

這些機構的核心目標在於,將自上而下的協調與對科學家自下而上的賦能相結合。既不能完全依賴科學家自由發揮(可能導致效率低下或研究方向分散),也不能強行控制每一步(會扼殺創造力)。

理想狀態下,機構為科學家提供清晰的目標、資源和支持,但具體的研究方法和過程由科學家自己主導。

找到這種平衡不僅能吸引頂尖研究領導者,也是成功的關鍵。Demis Hassabis稱之為協調尖端研究的核心秘訣。

這種平衡同樣適用於具體項目。比如在DeepMind,研究常在「探索」狀態(團隊尋找新想法)和「利用」狀態(團隊專注於工程和性能擴展)兩種模式間切換。

掌握模式切換時機和調整團隊節奏,是一門藝術。

6. 跨學科

跨學科合作是破解科學難題的鑰匙,卻常被學科壁壘卡住。

科學AI的研究往往需要多學科起步,但真正的突破來自跨學科的深度融合。這不僅是把人湊在一起,而是讓團隊共同開發共享的方法和思想。

比如,DeepMind的Ithaca項目用AI修復受損的古希臘銘文。為了成功,AI研究負責人要鑽研銘文學,而銘文學家也需要理解AI模型,因為直覺對這一工作至關重要。

培養這種團隊動態需要正確的激勵機制。團隊能做到這一點,靠的是專注於解決問題,而不是搶論文署名——這也是AlphaFold 2成功的關鍵。

這種專注在工業實驗室更易實現,也凸顯了長期公共研究資金的重要性——它需要擺脫對發表壓力的過度依賴。

為了實現真正的跨學科合作,組織還需要為能夠幫助融合學科的人創造角色和職業路徑。

在DeepMind,研究工程師推動研究與工程的良性循環,項目經理加強團隊協作並連接不同項目。DeepMind還優先招募擅長髮現學科交叉的人,並鼓勵科學家和工程師定期更換項目。

關鍵是打造一種文化——好奇心驅動、尊重差異、敢於爭論。經濟歷史學家Joel Mokyr稱這種文化為「爭議性」(contestability):不同背景的研究者能公開探討,彼此批評又共同進步。

這種文化的實踐可以通過定期舉辦跨學科研討會、開放討論平台以及鼓勵團隊內外互動來實現。

這段修復的銘文(IG I3 4B)記錄了一項與雅典衛城相關的法令,時間可追溯至公元前485年至484年

7. 採用

科學AI工具如AlphaFold既專業化又通用:它們專注少量任務,卻服務廣泛科學界,從研究疾病到改進漁業。

然而,科學進展轉化為實際應用並不簡單。例如,疾病的病原理論(germ-theory)從提出到被廣泛接受經歷了漫長的時間,而科學突破所催生的下遊產品(如新型抗生素)也常常由於缺乏合適的市場激勵而未能得到充分開發。

為了促進模型的落地應用,我們在科學家採用與商業目標、安全風險等因素之間尋找平衡,並設立了一個專門的影響力加速器(Impact Accelerator),以推動研究的落地應用,並鼓勵社會公益方向的合作。

要讓科學家更容易用上新工具,集成流程必須簡單。

在AlphaFold 2開發中,我們不僅開源代碼,還聯合EMBL-EBI創建數據庫,供計算資源有限的科學家輕鬆查詢2億種蛋白質結構。

AlphaFold 3進一步擴展了功能,但預測需求激增。為此,我們推出AlphaFold Server,科學家可按需生成結構。

同時,科學界還自發開發工具如ColabFold,顯示對多樣化需求的重視及培養科學界計算能力的重要性。

迄今為止,來自全球190多個國家的超過200萬用戶已訪問AlphaFold蛋白質結構數據庫,瀏覽了700多萬個結構迄今為止,來自全球190多個國家的超過200萬用戶已訪問AlphaFold蛋白質結構數據庫,瀏覽了700多萬個結構

科學家信任AI模型,才會用它。推廣關鍵在於明確模型的用途和局限。

比如,在AlphaFold開發中,我們設計了不確定性指標,通過直觀可視化展示模型對預測的信心,並與EMBL-EBI合作推出培訓模塊,指導如何解讀置信度並用實際案例強化信任。

類似地,Med-Gemini系統在健康問答上表現優異。它通過生成多條推理鏈評估答案分歧計算不確定性。當不確定性高時,自動調用網絡搜索整合最新信息。

這種方法既提升了可靠性,也讓科學家對決策過程一目瞭然,信任倍增。

Med-Gemini-3D能夠為CT掃瞄生成報告,這比標準X光成像複雜得多。在此示例中,Med-Gemini-3D的報告正確地包含了原始放射科醫生報告中遺漏的一處病變(用綠色標出)

8. 合作

科學AI離不開多領域協作,公共和私營部門的合作尤為關鍵。

從數據集創建到成果共享,這種合作貫穿項目全程。

比如,AI模型設計的新材料是否可行,需要資深材料科學家的評估;DeepMind設計的抗SARS-CoV-2蛋白質,能否如預期結合目標,也需與克瑞克研究所合作進行濕實驗驗證。甚至在數學領域,FunSearch解決Cap Set問題,也得益於數學家Jordan Ellenberg的專業指導。

鑒於工業實驗室在推動AI發展中的核心作用,以及對豐富領域知識的需求,公共與私營部門的合作在推動科學AI前沿發展方面的重要性將日益凸顯。為此,必須加大對公私合作的支持,比如為大學和研究機構與企業的聯合團隊提供更多資金。

但合作不簡單。各方需儘早就目標和關鍵問題達成一致:研究成果歸屬、是否發表論文、數據和模型是否開源、適用的許可協議等,都可能引發爭議。這些分歧通常反映了雙方不同的激勵,但成功合作往往建立在清晰的價值互換之上。

比如,AlphaFold蛋白質數據庫能覆蓋200萬用戶,正是因為結合了我們的AI模型與EMBL-EBI的生物數據管理專長。這種優勢互補式合作,不僅高效,還能讓AI潛力最大化。

參考資料:

https://deepmind.google/public-policy/ai-for-science/

https://x.com/_jasonwei/status/1861496796314493376

本文來自微信公眾號「新智元」,作者:新智元,編輯:編輯部 Hhj,36氪經授權發佈。