姚期智院士大模型新研究:思維圖DoT,用數學理論確保AI邏輯一致性

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

姚期智院士領銜,推出大模型新推理框架,CoT「王冠」戴不住了。

提出思維圖Diagram of Thought),讓大模型思考更像人類。

團隊更是為這種推理過程提供了數學基礎,通過拓撲斯理論(Topos Theory)正式化(formalize)DoT,確保其邏輯一致性和合理性。

相比CoT將推理過程表示為線性序列,DoT更能捕捉人類推理的複雜性。

相比引入分支結構ToT和GoT,DoT不需要依賴外部控制機制或多個模型協作,訓練部署更簡單。

秘訣就在於,DoT將LLM中的迭代推理建模為在單一模型內構建有向無環圖(DAG)

DAG由代表命題、批評、精煉和驗證的節點組成,邊表示它們之間的邏輯關係或依賴關係,邊都有方向,不存在任何循環路徑

這種無環的特性確保推理過程不受循環依賴的影響,能更真實反映合理的邏輯推導。

9.11和9.8哪個大、strawberry中有幾個「r」等問題在DoT的幫助下全都迎刃而解了。

要知道,大模型最新「頂流」OpenAI o1目前被訓練得原生具備生成CoT的能力,現在更強的DoT來了,是不是也可以通過強化學習內化到模型里,如此一來……

這項研究提出後得到了不小的關注。

網民紛紛表示這是一種正確的路徑。

碼住,碼住,碼住

具體來看看DoT長什麼樣。

大模型複雜推理新框架

如前所述,DoT將邏輯推理過程建模為在單個LLM內構建有向無環圖(DAG)

其框架內部管理三個關鍵角色:

  • 提議者:生成命題或推理步驟,添加新節點。

  • 批評者:評估命題,識別錯誤、不一致或邏輯謬誤,並添加批評節點。

  • 總結者:將經過驗證的命題綜合成一個連貫的思維鏈,有效地執行DAG的拓撲排序(topological sort)以產出最終的推理輸出。

這三個角色通過使用特殊token,如在模型的輸出中被明確定義。LLM在生成過程中在這些角色之間無縫切換,利用其自回歸能力根據上下文預測下一個token。

推理過程始於提議者引入一個命題,向DAG添加一個節點。

然後,由評論者評估驗證或提供批評。如果提供了批評,將添加一個新節點,並在該命題和批評之間建立一個邊。

基於批評,提議者生成一個精煉改進過的命題,表示為DAG中的一個新節點。

這一過程重覆進行,命題不斷被精煉直到得到驗證

一旦建立了足夠有效的命題,總結者就會綜合這些推理,對DAG進行拓撲排序以產生一個連貫的思維鏈。

通過讓模型接觸正確和錯誤的推理,DoT允許LLM從錯誤中學習,隨著時間的推移不斷精煉其推理,這也更像人類解決問題的方式。

這種方法不僅捕捉了推理的非線性和迭代特性,還通過自然語言批評提供了比二元信號更豐富的反饋。

DoT的訓練涉及使用格式化為DoT結構的訓練樣例,包括角色特定token和DAG表示。在推理過程中,模型基於上下文線索和角色特定token生成命題、批評和總結。

這種方法簡化了部署,消除了對多LLM協作或外部控制機制的需求,同時與標準LLM訓練範式保持一致,便於集成到現有工作流程中。

作者還為DoT框架提供了嚴格的數學基礎,利用Topos Theory對推理過程進行了形式化描述。

在這個框架中,命題被建模為拓撲中終端對象的子對象,邏輯關係和推理步驟表示為態射,批評和改進過程分別對應到子對象分類器的態射和命題間的態射。

通過引入PreNet範疇,他們還成功捕捉了推理過程的動態和併發特性。

這種數學基礎不僅確保了推理過程的邏輯一致性和完備性,還為設計下一代專門用於推理的AI模型提供了概念框架。

清華叉院姚期智、袁洋領銜

這篇論文由清華交叉信息研究院姚期智、袁洋領銜,論文第一作者為張伊凡。

張伊凡

張伊凡2021年本科畢業于于北京大學元培學院,現為清華大學交叉信息學院博士研究生,師從袁洋助理教授。

他的主要研究方向為基礎模型(大語言模型)的理論和算法、自監督學習、可信人工智能。

袁洋

袁洋是清華大學交叉信息學院助理教授,博士生導師。

2012年畢業於北京大學計算機系;2018年獲美國康奈爾大學計算機博士學位;2018-2019年前往麻省理工學院大數據科學學院做博士後。

他的主要研究方向是智能醫療、AI可解釋性、AI大系統,在非凸優化理論、神經網絡優化理論、機制設計等領域有頗多研究成果。

姚期智

姚期智是中國科學院院士、清華大學交叉信息研究院院長;同時也是「圖靈獎」創立以來首位獲獎的亞裔學者、迄今為止獲此殊榮的唯一華人計算機科學家。

姚期智教授2004年從普林斯頓辭去終身教職回到清華任教;2005年為清華本科生創立了計算機科學實驗班「姚班」;2011年創建「清華量子信息中心」與「交叉信息研究院」;2019年再為清華本科生創立了人工智能學堂班,簡稱「智班」。

如今,他領導的清華大學交叉信息研究院早已聲名遠播,姚班、智班都隸屬交叉信息院。

姚期智教授研究方向有算法、密碼學、量子計算等,是這方面的國際先驅和權威。

One More Thing

一年前的差不多同一時間姚期智院士領銜提出了累積推理(Cumulative Reasoning,CR)的方法。

DoT是對CR的進一步深化

當時CR協調了一個涉及不同專業化大語言模型的迭代過程,由不同模型承擔了提議者、驗證者和報告者角色。

而DoT直接在單一模型內構建有向無環圖,不依賴於外部控制機制或多個模型,訓練和部署更簡單。

且在DoT中,模型生成的批評反饋是自然語言形式的,而不是像CR那樣只給出二值信號。這使得模型可以接收到關於錯誤的詳細解釋,有助於更有效地改進命題。

這次DoT還有了強有力的數學基礎,闡明了DoT推理過程與範疇邏輯的關係,從理論上確保了推理的一致性和可靠性。

論文鏈接:https://arxiv.org/abs/2409.10038

參考鏈接:

[1]https://x.com/omarsar0/status/1835882277563179512

[2]https://hub.baai.ac.cn/users/16897

[3]https://hub.baai.ac.cn/users/19790