Nature:科研人員最愛AI工具大盤點,從推理到編程,哪款才是最佳助手?
本文介紹了當前最受科研人員青睞的AI模型,推理出色的o3-mini、全能型DeepSeek-R1、科研常用的Llama、編程利器Claude 3.5 Sonnet和開源明星Olmo 2,它們各有優劣,為科研人員提供了多樣選擇。
幾乎每週都有新的、令人影響深刻的AI工具發佈,研究人員紛紛踴躍嘗試。
從複雜的數學問題求解,到醫學診斷中的精準分析,再到代碼編寫與論文創作,AI工具展現了巨大的潛力。
但市面上令人眼花繚亂的AI模型,究竟哪一款才是讓科研工作者效率起飛的「夢中情模」,能助力科研突破,帶來事半功倍的效果呢?
在這裏,研究人員與《自然》雜誌分享了他們當下最青睞的模型。
o3-mini:推理小能手
提到LLM,就不得不提OpenAI。2022年,OpenAI推出了聊天機器人ChatGPT。
科學家們主要將ChatGPT用於查找信息或作為寫作助手,如起草摘要等。而在去年,OpenAI又發佈了一系列更先進的模型,其中o3-mini就是一款非常出色的推理模型。
o3-mini是一款速度很快的推理模型,並且面向註冊用戶免費開放。它經過訓練,會以逐步推理的方式回答問題。
這種「思維鏈」旨在模擬人類推理過程,幫它在科學和數學領域突破了嚴苛的基準測試。o3-mini擅長處理技術任務,如解決編程問題和重新格式化數據。
牛津大學數學家兼AI研究人員Simon Frieder表示,在解析陌生數學證明等任務上,o3-mini表現非常出色。
不過,他也提到,o3-mini仍然無法與數學家媲美。但不可否認的是,o3-mini為科研人員在處理一些複雜問題時提供了有力的幫助。
OpenAI近期還推出了「深度研究」功能,允許一些付費訂閱用戶從數百個網站上綜合信息並添加引用,生成報告,進行文獻綜述。
舊金山初創公司FutureHouse的化學家兼AI專家Andrew White表示:「這些模型在組合使用時效果更佳。」

DeepSeek:全能「潛力股」
DeepSeek-R1也是一款備受矚目的模型。它的能力與OpenAI的o1相當,但通過API使用的成本卻低得多。這對於許多科研團隊來說,是一個很有吸引力的優勢。
DeepSeek-R1是開源權重模型,雖然其訓練數據尚未公佈,但任何人都可以下載基礎模型,並根據自己的研究項目進行定製。
香港中文大學(深圳)的計算機科學家Benyou Wang等人正在開發可以在單機上運行或訓練的版本,讓更多學者能用到這個強大的模型。
和o1一樣,DeepSeek-R1的強項是解決數學問題和編寫代碼。同時,它在提出假設等任務上也表現不錯。這是因為DeepSeek選擇公佈模型的「思考過程」,使得研究人員能夠更好地完善後續問題,提高模型的輸出質量。
這種透明度在醫學診斷領域也可能發揮巨大作用。Benyou Wang正在利用該模型的推理能力開展實驗,致力於構建從患者評估到診斷和治療建議的清晰路徑。

然而,DeepSeek-R1也並非完美無缺。該模型的「思考過程」似乎特別長,這降低了它的運行速度,在查找信息或頭腦風暴方面實用性欠佳。
與競爭對手相比,DeepSeek在防範模型生成有害內容方面所採取的措施似乎也較少。一些研究人員認為這種開源且功能強大的模型對於科研發展有著重要意義,而另一些人則對此持謹慎態度。
Llama:科研老夥計
Llama是Meta AI於2023年發佈的一組開源權重模型,長期以來一直是科研界常用的LLM。僅通過開源科學平台Hugging Face,Llama各個版本下載量就已超過6億次。
Llama之所以受到科研界的歡迎,很大程度上是因為它可以被下載並在此基礎上進行開發。在處理受保護的數據時,能在個人或機構的服務器上運行至關重要,可以避免敏感信息反饋給其他用戶或開發者。

研究人員基於Llama模型開發出了能預測材料晶體結構的大語言模型,還利用它來模擬量子計算機的輸出結果。
北卡羅來納大學教堂山分校的ML科學家Tianlong Chen表示,Llama很適合用於模擬量子計算機,因為相對容易對其進行調整,讓它理解專業的量子語言。
不過,Llama也有一些小缺點。比如需要用戶申請訪問權限,這對一些人來說有點麻煩。
因此,其他開源模型,如西雅圖Allen人工智能研究所開發的OLMo,以及阿里雲開發的Qwen,現在常常成為科研中的首選。DeepSeek V3如今也是有力的競爭者。
Claude:編程利器
在矽谷,很多人對Claude 3.5 Sonnet的編程能力讚不絕口。
Claude 3.5 Sonnet由總部位於舊金山的AI公司Anthropic開發,它不僅可以編寫代碼,還能解讀圖表等視覺信息。此外,它還有一種模式,允許其遠程操作用戶的計算機。
Claude的寫作風格也備受讚譽。一些LLM(如ChatGPT)在去除技術語言時,可能也會誤刪關鍵信息。而Claude在潤色文本的同時,更擅長保留原意。
因此,在撰寫科研基金申請或為代碼添加解釋性註釋時,Claude可能是更好的選擇。

在一項基於數據驅動的科學任務的基準測試中,Claude 3.5 Sonnet在編程挑戰方面表現出色,這些任務的數據取自生物信息學和計算化學等領域的真實論文。
雖然Claude 3.5 Sonnet作為在線聊天機器人可以免費使用,但和OpenAI的模型一樣,研究人員只能通過付費API,才能實現完整集成。
隨著更便宜的開源模型越來越強大,人們可能會更傾向於使用開源模型。
Olmo:開源新星
對於想要深入瞭解內部運行機制的研究人員來說,Olmo 2是一個非常不錯的選擇。
Olmo 2是目前性能最出色的開源模型之一,它還附帶算法的訓練數據,以及用於訓練和評估模型的代碼。
研究Olmo 2這樣的模型能讓研究人員將偏差來源追溯到訓練數據上,同時通過更好地理解算法如何得出輸出結果,來提高效率。

目前,開源模型的門檻是需要一定的專業知識才能運行,但隨著免費實踐課程的增加,進入門檻正在逐漸降低。
如果法院判定使用受版權保護的內容來訓練模型屬於違法行為,那麼像Olmo 2這樣基於允許重覆使用和修改的數據集所訓練的模型,可能是唯一可以安全使用的模型。
參考資料:
https://www.nature.com/articles/d41586-025-00437-0
本文來自微信公眾號「新智元」,作者:英智,36氪經授權發佈。