浙大通義聯手推出慢思考長文本生成框架OmniThink,讓AI寫作突破知識邊界
AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
隨著大模型(LLMs)的發展,AI 寫作取得了較大進展。然而,現有的方法大多依賴檢索知識增強生成(RAG)和角色扮演等技術,其在信息的深度挖掘方面仍存在不足,較難突破已有知識邊界,導致生成的內容缺乏深度和原創性。

針對上述問題,浙大通義聯手提出慢思考長文本生成框架 OmniThink,通過模擬人類寫作中反思與擴展這一過程來突破知識的邊界,基於知識增強使生成的文章更加深入、豐富和原創,該框架可應用於綜述寫作、新聞報導、報告生成等場景。

-
論文題目:OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
-
論文鏈接:https://arxiv.org/abs/2501.09751
-
在線Demo: https://modelscope.cn/studios/iic/OmniThink
背景與挑戰

-
文章內容重覆:如圖所示,基於 RAG(GPT-4o)的框架主要依賴固定的檢索策略,檢索得到的內容信息單一,生成文章時可利用的信息有限,進而導致文章存在內容重覆問題。
-
缺乏深度和創新:角色扮演的方法嘗試從多個角度擴展信息空間,但依然存在深度不足和知識邊界無法突破的缺陷,生成的內容往往較為淺顯而缺乏新意。
OmniThink 概覽
OmniThink 通過引入反思與擴展機制,在傳統知識檢索增強的基礎上,增加了動態反思和擴展反饋的步驟。通過對先前信息的反思,OmniThink 能夠識別哪些內容值得進一步擴展,哪些信息應當被重新整理或過濾。該機制有效地避免了信息的片段化,使得生成的文章能夠實現知識的更深層次整合,進而提高文章的知識密度和創新性。
總體工作流程
如圖所示,OmniThink 的工作流程可以分為三大部分:信息獲取、文章大綱構建和文章創作。通過這三大步驟,OmniThink 能夠系統地獲取信息,組織知識,並最終生成結構化、信息豐富的文章。
-
信息獲取:通過動態的擴展和反思機制,OmniThink 逐步深化對主題的理解,形成包含層次信息和核心見解的「信息樹」與「概念池」。
-
大綱構建:根據前一步獲取的深入信息,OmniThink 會生成清晰、有邏輯性的大綱,確保文章內容的系統性與層次性。
-
文章創作:在大綱指導下,OmniThink 將信息整合併生成各個部分內容,最終通過多輪修正和去冗餘過程,輸出一篇內容完整、信息密集的長文。

信息獲取:擴展與反思
OmniThink 的關鍵步驟是信息獲取,它通過模擬人類學習知識的過程,逐步加深對某一主題的理解。這個過程由兩部分組成:擴展和反思。
-
擴展:在每一個迭代階段,OmniThink 會對主題進行信息擴展。系統首先從搜索引擎(如 Google、Bing 或自定義知識庫)獲取相關信息,並構建初步的「信息樹」。每一個信息節點都代表了一個子話題或相關領域的知識,系統會通過多輪檢索,針對每個節點進一步拓展,確保知識的深度與全面性。
-
反思:擴展信息後,OmniThink 會對已獲取的內容進行反思和過濾,提煉出核心見解。這些見解將不斷更新到概念池中,形成對話題的動態理解。通過這樣的反思過程,OmniThink 能夠不斷提升其信息的精度和深度,為文章創作打下堅實基礎。

大綱構建:引導文章結構
構建文章大綱是生成高質量文章的關鍵一步。一個好的大綱不僅能明確文章的主題和結構,還能確保各個部分之間的邏輯關聯性。
在 OmniThink 中,研究者首先通過初步的草稿大綱來對文章的框架進行初步構思。接著,OmniThink 結合從概念池中提取的核心信息,優化並精煉這個大綱,形成最終的結構化大綱。這種基於概念池的生成方法,能夠確保大綱全面涵蓋主題的關鍵點,並且邏輯嚴謹,層次分明。
文章創作:生成高質量內容
一旦大綱完成,OmniThink 進入文章創作階段。此時,系統會根據大綱中每個部分的標題和子標題,計算與信息樹中相關節點的語義相似度,獲取最相關的文獻和數據。這些信息被用於生成文章的各個部分。
-
並行生成:每一部分的內容在並行處理下進行生成。OmniThink 會依據已有的檢索信息和大綱要求生成每個部分的內容,並確保在生成過程中對引用信息進行標註。
-
去冗餘與修正:由於各個部分內容是並行生成的,因此初始文章會存在一定的冗餘或信息不一致。OmniThink 會在最後的階段對文章進行整合,去除重覆內容,修正邏輯關係,最終生成一篇結構清晰、內容完整的高質量文章。
實驗結果
在本文的實驗中,研究者使用了 WildSeek 數據集來評估 OmniThink 的生成能力,並與現有的幾個基準方法(如 RAG、oRAG、STORM 和 Co-STORM)進行了對比。通過這次實驗,研究者全面評估了 OmniThink 在自動評價和人工評價方面的表現,以下是所得的關鍵實驗結果。
自動評估結果
研究者首先使用 Prometheus2 自動評價工具對生成的文章進行了打分,評價維度包括:相關性、廣度、深度和新穎性。同時,研究者還加入了信息多樣性和知識密度兩個指標來衡量文章內容的豐富性和深度。
從表格中可以看到,OmniThink 在所有維度中均表現優秀,尤其在新穎性上表現尤為突出。與傳統的生成方法相比,OmniThink 的強大反思能力使其能夠從已有的知識中挖掘出新的視角和創見,從而在生成內容時展現出較高的創新性。
另外,OmniThink 在知識密度上也表現得尤為出色,這得益於其動態信息檢索策略,能夠通過持續不斷地獲取多樣化的信息,進而提升文章內容的深度和精確度。

大綱生成質量分析
文章大綱作為內容生成的基礎,其質量直接影響最終文章的結構性、邏輯性和表達清晰度。在實驗中,研究者通過評估大綱的結構性、邏輯一致性和對內容生成的指導性,進一步分析了 OmniThink 在大綱生成方面的表現。
結果顯示,OmniThink 在大綱的結構性和邏輯一致性方面優於其他基準方法,特別是在如何為內容創作提供有效的生成指導方面,表現出了較為明顯的優勢。這一優勢歸功於 OmniThink 獨特的概念池設計,它幫助模型更全面地理解目標話題,從而使得生成的大綱更加清晰和一致。
不過,研究者也發現,儘管在結構性和邏輯一致性上有所提升,但在邏輯一致性方面,OmniThink 的改進仍然有限,未來可以進一步優化這一環節。

消融實驗:動態擴展與反思的作用
為了進一步驗證 OmniThink 中動態擴展與反思機制的有效性,研究者進行了消融實驗,去掉了 OmniThink 的擴展和反思觀察各項指標的變化。
實驗結果表明,去除這一機制後,模型在信息多樣性和新穎性等關鍵指標上下降。這表明,動態擴展與反思機制在提升文章質量,特別是在增加信息多樣性和創新性方面,起到了至關重要的作用。

擴展與反思的深入分析
由於在擴展與反思的環節中,兩者是相互依賴關係,無法完全剝離其中一個,研究者設計了一個巧妙的分析實驗:分別將負責反思和拓展的模型換成能力更弱的小模型。觀察各項指標的下降程度,作為其對各項指標的貢獻程度。
反思機制被證明是提高文章新穎性和信息多樣性的重要因素。反思不僅可以幫助模型重新評估和整合現有的知識,還能通過深度的自我反省激發出更多創新的觀點和想法。研究者認為,反思機制是推動 OmniThink 創新性提升的關鍵因素。
擴展機制則在知識的深度和信息的相關性上起到了更為顯著的作用。通過擴展,OmniThink 可以接觸到更廣泛的知識領域,增加信息的深度,從而提升生成文章的質量和知識密度。

思維深度分析:信息量與生成質量的關係
隨著檢索信息量的增加,文章的知識密度和信息多樣性都有提升。研究者發現,當檢索深度從 1 級提升到 3 時,生成的文章質量迅速提高。但當深度達到 4 時,增長速度放緩。
這表明,在長篇文章生成中,適當增加檢索深度可以有效提升文章的多樣性和知識密度,但過多的信息也可能導致效果遞減。因此,如何平衡信息深度和生成質量,仍然是未來研究的一個重要方向。

人工評估結果:OmniThink 的實際優勢
為了更全面地評估 OmniThink 的性能,研究者邀請了 15 位具有良好教育背景的誌願者進行了人工評估。通過人工評分,結果顯示 OmniThink 在多個維度上的表現都優於當前最強基線 Co-STORM,特別是在 廣度 維度上,OmniThink 的評分提升了 11%。
儘管在新穎性上,自動評估顯示了較為明顯的提升,但人工評估卻僅顯示了輕微的優勢。這一差異揭示了目前自動評估與人工評估之間存在的差距,未來的評估體系需要更加精細化,才能更好地對長篇文章的生成質量進行評估。
儘管 OmniThink 在大多數維度上表現出色,仍有約 30% 的文章在人工評估中與 Co-STORM 相當,這可能是因為大型模型的基礎寫作能力已經達到較高水平,使得人工評估更難察覺細微差別。因此,如何在未來的研究中開發更細緻的評估標準,成為了提升生成質量評估的關鍵。
實驗結果表明,OmniThink 提高了生成文章的知識密度,並且在保持文章一致性和深度的基礎上,增強了信息的多樣性與深入性。尤其在長篇文章生成中,OmniThink 能夠提供更具洞察力、更加全面的內容,從而解決了傳統方法生成淺薄、重覆的文章的問題。
在人類評估和專家反饋中,OmniThink 展現出了相對較高的潛力,特別是在應對複雜、開放領域文章的生成任務時,其信息整合和反思調整的能力優於現有技術。

應用場景
-
綜述寫作:OmniThink 能夠幫助學術研究人員在撰寫綜述時,快速收集並整合相關領域的知識,生成更具深度的文獻綜述或理論分析,避免內容的表面化與重覆性。
-
新聞報導:在新聞報導領域,OmniThink 能夠處理多角度的信息源,生成多層次、有深度的報導文章,尤其在處理複雜社會事件時,能夠提供更豐富的背景信息與分析視角。
-
報告生成:OmniThink 框架可通過檢索相關知識庫和自我反思,生成具有深入分析和洞察力的報告內容。
總結
OmniThink 的優勢:
-
知識密度的提升:通過反思與擴展機制,OmniThink 可以提高生成文章的知識密度,避免了內容的重覆和表面化。
-
多樣性與深度並存:與現有技術相比,OmniThink 能夠在保持文章深度的同時,增加信息的多樣性和多維度的探索。
-
更高的原創性:通過動態調整信息檢索策略和反思機制,OmniThink 能夠生成更加原創且具有新穎視角的文章。
存在的局限:
-
計算資源需求較高:由於需要進行多輪反思與擴展,OmniThink 的計算資源需求較高,可能會影響其在實時應用中的效果。
-
信息篩選的挑戰:在信息收集和篩選階段,如何有效識別有價值的信息並避免冗餘,仍然是一個待解決的問題。
總的來說,OmniThink 提供了一種基於慢思維的長文本生成新框架,為未來更高效、更智能的知識增強長文本生成方法提供了實踐參考。