科研黨狂喜,AI預測神經學研究結論超過人類專家水平
LLM可以比科學家更準確地預測神經學的研究結果!
最近,來自倫敦大學學院、劍橋大學、牛津大學等機構的團隊發佈了一個神經學專用基準BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。
結果顯示,經過該基準訓練的LLM在預測神經科學結果的準確度方面高達81.4%,遠超人類專家的63%。
在神經學常見的5個子領域:行為/認知、細胞/分子、系統/回路、神經疾病的神經生物學以及發育/塑性和修復中,LLM的表現也都全方位超過了人類專家。
更重要的是,這些模型被證實對於數據沒有明顯的記憶。
也就是說,它們已經掌握了一般科研的普遍模式,可以做更多的賽前分析性(Forward-looking)預測、預測未知的事物。
這立馬引發科研圈的圍觀。
多位教授和博士後博士後也表示,以後就可以讓LLM幫忙判斷更多研究的可行性了,nice!
LLM預測能力全面超越人類專家
讓我們先來看看論文的幾個重要結論:
總體結果:LLMs在BrainBench上的平均準確率為81.4%,而人類專家的平均準確率63.4%。LLMs的表現顯著優於人類專家
子領域表現:在神經科學的幾個重要的子領域:行為/認知、細胞/分子、系統/回路、神經疾病的神經生物學以及發育/塑性和修復中,LLMs在每個子領域的表現均優於人類專家,特別是在行為認知和系統/回路領域。
模型對比:較小的模型如Llama2-7B和Mistral-7B與較大的模型表現相當,而聊天或指令優化模型的表現不如其基礎模型。
人類專家的表現:大多數人類專家是博士學生、博士後研究員或教職員工。當限制人類響應為自我報告專業知識的最高20%時,準確率上升到66.2%,但仍低於LLMS。
置信度校準:LLMs和人類專家的置信度都校準良好,高置信度的預測更有可能是正確的。
記憶評估:沒有跡象表明LLMs記憶了BrainBench項目。使用zlib壓縮率和困惑度比率的分析表明,LLMs學習的是廣泛的科學模式,而不是記憶訓練數據。
全新神經學基準
本論文的一個重要貢獻,就是提出了一個賽前分析性的基準測試BrainBench,可以專門用於評估LLM在預測神經科學結果方面的能力。
那麼,具體是怎麼做到的呢?
數據收集
首先,團隊利用PubMed獲取了2002年至2022年間332807篇神經科學研究相關的摘要,從PubMed Central Open Access Subset(PMC OAS)中提取了123085篇全文文章,總計13億個tokens。
評估LLM和人類專家
其次,在上面收集的數據的基礎上,團隊為BrainBench創建了測試用例,主要通過修改論文摘要來實現。
具體來說,每個測試用例包括兩個版本的摘要:一個是原始版本,另一個是經過修改的版本。修改後的摘要會顯著改變研究結果,但保持整體連貫性。
測試者的任務是選擇哪個版本包含實際的研究結果。
團隊使用Eleuther Al Language Model EvaluationHaress框架,讓LLM在兩個版本的摘要之間進行選擇,通過困惑度(perplexity)來衡量其偏好。困惑度越低,表示模型越喜歡該摘要。
對人類專家行為的評估也是在相同測試用例上進行選擇,他們還需要提供自信度和專業知識評分。最終參與實驗的神經科學專家有171名。
實驗使用的LLM是經過預訓練的Mistral-7B-v0.1模型。通過LoRA技術進行微調後,準確度還能再增加3%。
評估LLM是否純記憶
為了衡量LLM是否掌握了思維邏輯,團隊還使用zlib壓縮率和困惑度比率來評估LLMs是否記憶了訓練數據。公式如下:
其中,ZLIB(X)表示文本X的zlib壓縮率,PPL(X)表示文本X的困惑度。
部分研究者認為只能當作輔助
這篇論文向我們展示了神經科學研究的一個新方向,或許未來在前期探索的時候,神經學專家都可以借助LLM的力量進行初步的科研想法篩選,剔除一些在方法、背景信息等方面存在明顯問題的計劃等。
但同時也有很多研究者對LLM的這個用法表示了質疑。
有人認為實驗才是科研最重要的部分,任何預測都沒什麼必要:
還有研究者認為科研的重點可能在於精確的解釋。
此外,也有網民指出實驗中的測試方法只考慮到了簡單的AB假設檢驗,真實研究中還有很多涉及到平均值/方差的情況。
整體來看,這個研究對於神經學科研工作的發展還是非常有啟發意義的,未來也有可能擴展到更多的學術研究領域。
研究人員們怎麼看呢?
參考鏈接:
[1]https://www.nature.com/articles/s41562-024-02046-9#author-information
[2]https://github.com/braingpt-lovelab/BrainBench
本文來自微信公眾號「量子位」,作者:奇月,36氪經授權發佈。