超越GPT-4o！開源科研神器登場，4500萬篇論文檢索增強生成可靠回答

11月26日 12:45 新浪網 tech-auto-hilite

奇月發自凹非寺

量子位 | 公眾號 QbitAI

只需幾秒鍾，開源模型檢索4500篇論文，比GPT-4o還可靠！

這就是由華盛頓大學和艾倫人工智能研究所（Ai2）打造的最新模型OpenScholar。

它還是首個從論文到數據集、模型檢查點都完全開源的科研助手模型。

在由20位專家進行的500次對比實驗中，72%的情況下他們都覺得OpenScholar的輸出結果超越了人類。

而且OpenScholar還會附上參考文獻列表，非常貼心：

它的功能也非常豐富。

你可以詢問OpenScholar某個研究課題的現狀：「有沒有人嘗試過將檢索增強型LM的檢索庫擴大到萬億級tokens？」

尋找最新的數據集：

針對某篇論文詢問技術細節：

或者詢問算法的細節，比如機器人算法/ReLU算法等等：

有多位網民使用過後表示：做複雜課題也能快速蒐集有用的資料，真是科研神器！

僅調用8B模型

一句話總結：它存儲了4500萬篇論文的大規模數據，並使用自定義訓練的檢索器、重排器和8B參數語言模型進行檢索，並根據最新的科學文獻內容回答問題。

具體來說，OpenScholar-8B（OS-8B）系統包括以下組件：

1.開放學者數據存儲：包含超過4500萬篇論文、以及對應的約2.5億段落嵌入。底層論文數據截止到2024年10月。

2.專業檢索器和重排序器：這些工具專門用於從科學文獻數據存儲庫中識別相關段落。

3.專業8B語言模型：這是一個針對科學文獻綜合任務優化的8B參數語言模型，在性能與計算效率之間取得了很好平衡。團隊基於來自迭代自我反饋生成管道生成的合成數據訓練並微調了Llama 3.1 8B。

4.迭代自我反饋生成：在推理過程中，團隊使用迭代自我反饋來通過自然語言反饋精煉模型輸出。每次迭代都額外檢索更多論文，使模型能夠提高回答質量並縮小引用差距。

為了評估 OpenScholar，團隊還開發了ScholarQABench——一個專門用於評估從多篇論文中綜合信息以解決開放式科學問題的基準。

ScholarQABench包含七個數據集：三個專注於單篇論文評估的現有數據集，以及四個需要跨多篇論文綜合的新收集數據集。

最終在實驗自動評估以及人工評估中，OpenScholar模型的表現優於很多主流模型，包括GPT-4o和Llama 3.1 70B。

搜索的可靠性方面，OpenScholar更是遠超GPT-4o。

GPT-4o在90%以上的情況下都引用了不存在的論文，而OpenScholar的結果都是來自確定來源。

以及在信息覆蓋率、實用性、相關性等多個維度方面，OpenScholar撰寫的結果都優於GPT-4o。

運營成本便宜100倍

對比基於OpenAI的GPT-4o和Anthropic的Claude的科研模型可以發現，它們雖然性能很強，但價格昂貴、而且工作原理也不透明。

而OpenScholar正是為了挑戰這些現有的大模型玩家入局的！

據開發人員稱，OpenScholar是首個完全開源的科學助手語言模型——從數據到訓練食譜再到模型檢查點，全部公開！

研究人員可以非常清除地看到模型的訓練過程和數據集的內容等，也可以根據自己的工作進行調整。

這樣一來，規模較小、架構簡單的OpenScholar-8B的運營成本比基於GPT-4o構建的同期系統PaperQA2便宜100倍。

對於小型機構、資金不足的實驗室以及發展中國家的研究人員來說，這樣的運營成本非常有吸引力。

不過，目前OpenScholar也有很多局限，比如：

1.OpenScholar可能會引用不那麼具有代表性的論文。

例如，在描述特定方法時，它可能未能引用提出該方法的原始論文，而是引用了提及該方法的另一篇論文。

2.OpenScholar有時可能會生成沒有參考文獻支持的響應，或者檢索到該領域不是最相關或最新的論文。

例如：當被問及機器人學中的大型基礎模型時，此響應引用了一篇具有3.07億參數模型的論文，而截至2024年11月，機器人學中當前最大的基礎模型（RT-2）具有550億參數。

3.OpenScholar可能仍然可能生成帶有幻覺的結果，而不是依賴於它檢索到的真實論文。

4.許多科學論文都設置了付費牆。

目前出於對版權的尊重，OpenScholar數據存儲庫僅包含公開的論文。這可能會降低模型在較封閉領域回答問題的能力。

團隊表示，未來他們會納入更多論文、升級檢索增強算法，也會對各個領域的經典研究問題和論文進行深入整合，增強OpenScholar的專業程度。

不過，從實驗結果來看，OpenScholar已經是目前表現最好的AI學術研究助理之一啦，感興趣的小夥伴可以直接戳下面的公開資料進行嘗試！

Demo: https://openscholar.allen.ai/

論文: https://openscholar.allen.ai/paper

OpenScholar代碼: https://github.com/AkariAsai/OpenScholar

ScholarQABench數據集代碼: https://github.com/AkariAsai/ScholarQABench

更多測試code: https://github.com/AkariAsai/OpenScholar_ExpertEval

參考鏈接

[1] https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

[2] https://allenai.org/blog/openscholar