2分鐘完成論文調研!ByteDance Research推出論文檢索智能體PaSa,遠超主流檢索工具
機器之心發佈
機器之心編輯部
2025 被稱為 Agent 元年,新年伊始,ByteDance Research 就推出了一款基於強化學習的智能體應用:論文檢索智能體。它可以模仿人類研究者調用搜索引擎、看論文、查參考文獻。繁瑣冗長的論文調研,現在,只需要兩分鐘。
從事科研工作的你,想要一個幫你盡調論文的科研小助手嗎?

你是否曾為了尋找某個研究主題的相關論文,花費了大量的時間與精力;或者對某個研究想法充滿興趣,卻不確定是否已有類似的研究,最終耗費了大量時間在調研上?最近,ByteDance Research 的研究團隊推出了一款強大的學術論文檢索工具 ——PaSa。用戶只需提出關注的學術問題,PaSa 即可自動調用搜索引擎,瀏覽相關論文並追蹤引文網絡,精準、全面地為用戶呈現所有相關的學術論文,只需要兩分鐘,就可以完成一次詳盡的學術調研。
先來看看 PaSa 的效果:



研究人員將 PaSa 與一系列主流檢索工具進行了對比,包括 Google, Google Scholar, Google+GPT-4o, ChatGPT(配備檢索能力的 GPT-4o), GPT-o1 以及 PaSa-GPT-4o。在學術 Query 測試集上,PaSa 大幅超越了當前主流檢索工具:與 Google 相比,PaSa-7b 在 Recall@20 和 Recall@50 上分別提升了 37.78% 和 39.90%。與基於 Prompt Engineering 實現的 PaSa-GPT-4o 相比,經過強化學習訓練的 PaSa-7b 在召回率上提升了 30.36%,準確率上提升了 4.25%.。
PaSa 目前已開放試用。同時,研究團隊公開了詳盡的技術論文,並一次性開源了全部的數據、代碼和模型:

-
論文地址:https://arxiv.org/abs/2501.10120
-
項目倉庫:https://github.com/bytedance/pasa
-
PaSa 主頁:https://pasa-agent.ai
PaSa Agent 框架
PaSa 的核心組件包含兩個 LLM Agents:Crawler 和 Selector。Crawler 通過自主調用搜索工具、閱讀論文、擴展參考文獻,不斷收集與用戶 Query 可能相關的學術論文。Selector 則負責精讀 Crawler 找到的每一篇論文,決定其是否滿足用戶的需求。

PaSa 框架:Crawler 的設計旨在最大化相關論文的召回率,而 Selector 則強調精確性,即識別論文是否符合用戶需求。
下圖展示了一個 PaSa 處理 User Query 的具體流程:

PaSa 的工作流示例:Crawler 可以生成多樣、互補的搜索詞執行多次搜索。此外,Crawler 還能夠評估其行為的長期價值,例如在多步擴展引文網絡後,Cralwer 能夠發現許多與用戶 Query 相關的論文,即使路徑中的中間論文並不直接與用戶需求匹配。
訓練優化
為了訓練 PaSa,研究團隊首先構造了一個高質量的學術細粒度 Query 數據集:AutoScholarQuery。該數據集通過收集人工智能領域頂會(ICLR 2023,ICML 2023,NeurIPS 2023,ACL 2024,CVPR 2024)發表的論文,基於每篇論文中 「Related Work」 部分的描述及其引用的相關文獻,生成學術問題和對應的相關論文列表。最終,數據集包含了 36k 數據,每條數據包含一個 AI 領域的學術問題及相關論文,示例如下圖所示。

AutoScholarQuery 中的數據示例
儘管 AutoScholarQuery 缺乏人類科學家發現論文的軌跡數據,但該數據集仍然能夠支持對 PaSa 智能體進行強化學習訓練。在 Crawler 的訓練過程中,面臨兩個主要挑戰:獎勵稀疏性和過長的行動軌跡。為瞭解決獎勵稀疏性問題,研究團隊引入了 Selector 作為輔助獎勵模型,顯著提升了優化效果。此外,Crawler 在一次執行中可能收集到上百篇文章,導致完整的行動軌跡過長,無法完全輸入到 LLM 的上下文中。為此,團隊提出了一種全新的 session-level PPO 算法,解決這一問題。
Selector 主要通過模仿學習進行訓練。Selector 會先生成一個 Decision Token,決定論文是否符合用戶 Query 的需要。同時 Token Probability 也可以作為相關性分數用於最終結果的排序。在 Decision Token 後,Selector 還會輸出決策依據。
Crawler 和 Selector 的更多訓練細節詳見論文。
實驗結果
為了驗證 PaSa 在真實學術搜索場景中的表現,研究團隊開發了一個評測集 ——RealScholarQuery。該數據集包含了 AI 研究者提出的真實學術問題,並為每個問題人工構建了對應的相關論文列表。研究團隊在 AutoScholarQuery-test 和 RealScholarQuery 兩個評測集上,全面對比了 PaSa 與 baselines 的表現。
Baselines
-
Google:直接用 Google 搜索用戶問題
-
Google Scholar:直接用 Google Scholar 搜索用戶問題
-
Google with GPT-4o:首先 prompt GPT-4o 改寫用戶問題生成一個更適於 Google 搜索的問題,然後使用 Google 進行搜索
-
ChatGPT:上傳用戶問題給有搜索功能的 GPT-4o,並收集它的生成結果
-
GPT-o1:直接 prompt GPT-o1 來處理用戶問題
-
PaSa-GPT-4o:通過 prompt GPT-4o 模擬 Crawler 和 Selector,構成 PaSa 架構 agent
PaSa
-
PaSa-7b:使用 Qwen2.5-7b-Instruct 作為基礎模型,通過特殊獎勵構造的強化學習訓練的 Crawler 和 Selector 構成的 agent
-
PaSa-7b-ensemble:集成多次 Crawler 的搜索結果,提高最終的召回量

在 AutoScholarQuery 測試集上,PaSa-7b 的效果優於其他所有的基線模型。與最強的基線 PaSa-GPT-4o 相比,在準確率相當的情況下,PaSa-7b 的召回率提高了 9.64%,Crawler 召回率提高了 3.66%。和 Google 搜索的最好結果相比,Recall@20,Recall@50 和 Recall@100 分別提升了 33.80%,38.83% 和 42.64%。此外,集成後的 PaSa-7b-ensemble 比 PaSa-7b 的召回率和 Crawler 召回率能進一步提高 1.51% 和 3.44%。
在更接近真實的 RealScholarQuery 上,PaSa-7b 的提升更加明顯。與 PaSa-GPT-4o 相比,PaSa-7b 的召回率提高了 30.36%,精確率提高了 4.25%。Google 搜索的最好結果相比,Recall@20,Recall@50 和 Recall@100 分別提升了 37.78%,39.90% 和 39.83%。PaSa-7b-ensemble 的召回率和 Crawler 召回率分別進一步提高了 3.52% 和 4.32%。
結語
學術搜索是一個具有獨特挑戰的信息檢索場景:涉及大量專業性較強的長尾知識,要求全面的召回能力,並能夠支持細粒度的查詢。PaSa 是基於大語言模型的全新論文檢索智能體,通過模仿人類的搜索工具調用、論文閱讀以及參考文獻查閱過程,能夠自主高效地完成論文調研這一複雜的工作。