姚期智院士大模型新研究：思維圖DoT，用數學理論確保AI邏輯一致性

09月24日 11:40 新浪網 news-china-auto-hilite

西風發自凹非寺

量子位 | 公眾號 QbitAI

姚期智院士領銜，推出大模型新推理框架，CoT「王冠」戴不住了。

提出思維圖（Diagram of Thought），讓大模型思考更像人類。

團隊更是為這種推理過程提供了數學基礎，通過拓撲斯理論（Topos Theory）正式化（formalize）DoT，確保其邏輯一致性和合理性。

相比CoT將推理過程表示為線性序列，DoT更能捕捉人類推理的複雜性。

相比引入分支結構ToT和GoT，DoT不需要依賴外部控制機制或多個模型協作，訓練部署更簡單。

秘訣就在於，DoT將LLM中的迭代推理建模為在單一模型內構建有向無環圖（DAG）。

DAG由代表命題、批評、精煉和驗證的節點組成，邊表示它們之間的邏輯關係或依賴關係，邊都有方向，不存在任何循環路徑。

這種無環的特性確保推理過程不受循環依賴的影響，能更真實反映合理的邏輯推導。

9.11和9.8哪個大、strawberry中有幾個「r」等問題在DoT的幫助下全都迎刃而解了。

要知道，大模型最新「頂流」OpenAI o1目前被訓練得原生具備生成CoT的能力，現在更強的DoT來了，是不是也可以通過強化學習內化到模型里，如此一來……

這項研究提出後得到了不小的關注。

網民紛紛表示這是一種正確的路徑。

碼住，碼住，碼住

具體來看看DoT長什麼樣。

大模型複雜推理新框架

如前所述，DoT將邏輯推理過程建模為在單個LLM內構建有向無環圖（DAG）。

其框架內部管理三個關鍵角色：

提議者：生成命題或推理步驟，添加新節點。
批評者：評估命題，識別錯誤、不一致或邏輯謬誤，並添加批評節點。
總結者：將經過驗證的命題綜合成一個連貫的思維鏈，有效地執行DAG的拓撲排序（topological sort）以產出最終的推理輸出。

這三個角色通過使用特殊token，如、、，在模型的輸出中被明確定義。LLM在生成過程中在這些角色之間無縫切換，利用其自回歸能力根據上下文預測下一個token。

推理過程始於提議者引入一個命題，向DAG添加一個節點。

然後，由評論者評估驗證或提供批評。如果提供了批評，將添加一個新節點，並在該命題和批評之間建立一個邊。

基於批評，提議者生成一個精煉改進過的命題，表示為DAG中的一個新節點。

這一過程重覆進行，命題不斷被精煉直到得到驗證。

一旦建立了足夠有效的命題，總結者就會綜合這些推理，對DAG進行拓撲排序以產生一個連貫的思維鏈。

通過讓模型接觸正確和錯誤的推理，DoT允許LLM從錯誤中學習，隨著時間的推移不斷精煉其推理，這也更像人類解決問題的方式。

這種方法不僅捕捉了推理的非線性和迭代特性，還通過自然語言批評提供了比二元信號更豐富的反饋。

DoT的訓練涉及使用格式化為DoT結構的訓練樣例，包括角色特定token和DAG表示。在推理過程中，模型基於上下文線索和角色特定token生成命題、批評和總結。

這種方法簡化了部署，消除了對多LLM協作或外部控制機制的需求，同時與標準LLM訓練範式保持一致，便於集成到現有工作流程中。

作者還為DoT框架提供了嚴格的數學基礎，利用Topos Theory對推理過程進行了形式化描述。

在這個框架中，命題被建模為拓撲中終端對象的子對象，邏輯關係和推理步驟表示為態射，批評和改進過程分別對應到子對象分類器的態射和命題間的態射。

通過引入PreNet範疇，他們還成功捕捉了推理過程的動態和併發特性。

這種數學基礎不僅確保了推理過程的邏輯一致性和完備性，還為設計下一代專門用於推理的AI模型提供了概念框架。

清華叉院姚期智、袁洋領銜

這篇論文由清華交叉信息研究院姚期智、袁洋領銜，論文第一作者為張伊凡。

張伊凡

張伊凡2021年本科畢業于于北京大學元培學院，現為清華大學交叉信息學院博士研究生，師從袁洋助理教授。

他的主要研究方向為基礎模型（大語言模型）的理論和算法、自監督學習、可信人工智能。

袁洋

袁洋是清華大學交叉信息學院助理教授，博士生導師。

2012年畢業於北京大學計算機系；2018年獲美國康奈爾大學計算機博士學位；2018-2019年前往麻省理工學院大數據科學學院做博士後。

他的主要研究方向是智能醫療、AI可解釋性、AI大系統，在非凸優化理論、神經網絡優化理論、機制設計等領域有頗多研究成果。

姚期智

姚期智是中國科學院院士、清華大學交叉信息研究院院長；同時也是「圖靈獎」創立以來首位獲獎的亞裔學者、迄今為止獲此殊榮的唯一華人計算機科學家。

姚期智教授2004年從普林斯頓辭去終身教職回到清華任教；2005年為清華本科生創立了計算機科學實驗班「姚班」；2011年創建「清華量子信息中心」與「交叉信息研究院」；2019年再為清華本科生創立了人工智能學堂班，簡稱「智班」。

如今，他領導的清華大學交叉信息研究院早已聲名遠播，姚班、智班都隸屬交叉信息院。

姚期智教授研究方向有算法、密碼學、量子計算等，是這方面的國際先驅和權威。

One More Thing

一年前的差不多同一時間姚期智院士領銜提出了累積推理（Cumulative Reasoning，CR）的方法。

DoT是對CR的進一步深化。

當時CR協調了一個涉及不同專業化大語言模型的迭代過程，由不同模型承擔了提議者、驗證者和報告者角色。

而DoT直接在單一模型內構建有向無環圖，不依賴於外部控制機制或多個模型，訓練和部署更簡單。

且在DoT中，模型生成的批評反饋是自然語言形式的，而不是像CR那樣只給出二值信號。這使得模型可以接收到關於錯誤的詳細解釋，有助於更有效地改進命題。

這次DoT還有了強有力的數學基礎，闡明了DoT推理過程與範疇邏輯的關係，從理論上確保了推理的一致性和可靠性。

論文鏈接：https://arxiv.org/abs/2409.10038

參考鏈接：

[1]https://x.com/omarsar0/status/1835882277563179512

[2]https://hub.baai.ac.cn/users/16897

[3]https://hub.baai.ac.cn/users/19790