1000個智能體打造《我的世界》，北大校友35頁技術報告揭秘

11月05日 12:40 新浪網 news-china-auto-hilite

團隊全新公開35頁技術報告，詳盡解密AI智能體如何產生專業化分工、社交互動、甚至傳播虛擬宗教……

其中最精彩的，當數團隊整活兒：

讓牧師NPC引入虛擬宗教，最後發現該宗教在500個智能體（橫跨6大城鄉）中進行了廣泛傳播。

據介紹，項目整體由一個名為PIANO的架構提供支持，它核心解決多智能體交互問題，用於確保多個輸出流的一致性。

接下來，團隊使用受人類歷史啟發的文明基準，來分別評估單個智能體和多智能體的行為表現。

出人意料的是，在投放了30個初始配置完全相同的智能體後，一群AI經過一番互相試探，最終竟產生了社會分工。

而在更大範圍內，有關舞蹈、生態意識和惡作劇等話題的討論表明，多智能體在不同區域竟形成了不同文化圈。

看完這些，難怪有網民驚呼：

我們生活在模擬矩陣中，未來就是現在。

全新PIANO架構

這個項目代號Sid，由北大校友、MIT教授Robert Yang發起，最終目標是將智能體無縫整合進人類社會中。

前一陣，團隊展示了由GPT-4驅動的1000個智能體如何在「我的世界」中創建新文明，當時就引發大量關注。

不過對Sid團隊來說，這離最終目標還很遠，其交互範圍和複雜性仍然有限。

按他們的話來說：

目前單個智能體在自主決策和執行上已經有了很大提升，但構建能夠自發社交互動甚至共同進步的智能體仍然是一項根本挑戰。

與此同時，靠大模型驅動的智能體也存在諸多問題。

比如，即使配備了用於規劃和反思的模塊，智能體也經常陷入重覆，甚至在幻覺積累到一定程度後出現錯誤。

更可怕的是，這種錯誤還會出現「人傳人現象」，導致進一步的幻覺和循環。

對此，團隊提出了全新架構「PIANO」（通過神經編排的並行信息聚合），其中P代表感知模塊，I代表智能核心，A則是行動模塊。

這一架構被用來回答：

智能體如何在多個時間尺度上有意識和潛意識地同時思考和行動？

團隊打了個比方，這就好比鋼琴的琴鍵，代表著不同的大腦模塊，當它們一起演奏時，可以產生優美的和弦。而在智能體中，同樣產生了類人的特質。

具體而言，PIANO架構基於兩個原則設計：

併發性原則
連貫性原則

首先，類似於系統1系統2，智能體應該能夠同時思考和行動，這意味著智能體可以在處理即時反應的同時，進行緩慢的深思熟慮。

這種設計允許智能體在實時環境中與低延遲交互，同時保持複雜決策的能力。

其次，智能體產生的多個輸出應該是一致的。

為了確保這一點，PIANO引入了認知控製器（CC）模塊，它負責做出高層決策，並將這些決策轉化為下遊決策，以將其轉換為每個電機模塊中的適當輸出。

這一設計減少了信息量，並使得智能體能夠在多個輸出流之間保持一致性。

基於上述原則，PIANO由10個併發運行的不同模塊組成：

比如，目標生成模塊可以根據智能體的經驗和環境的相互作用，來生成智能體的目標。

舉個例子，假如一個智能體以前是干物流的，現在新遇到了堵車情況，這個模塊可能就會生成一個新目標：

與其他智能體協作，設計一種新的物流方案。

在這裏，感知處理模塊負責處理來自環境的輸入信息，如視覺和聽覺感知，並將其轉化為智能體可以理解和處理的信息。

接下來，技能執行模塊可以讓智能體在環境中執行特定技能或動作，如在Minecraft中挖掘、製作或建造結構。

遇到一些突發情況，動作反射模塊負責處理即時反應和行動，這個模塊由小型、快速的非LLM神經網絡構成。

而且，在整個過程中，智能體還可以通過行動意識模塊評估自己的狀態和表現，從而實現即時的調整和自我改進。

若遇到與其他智能體交流的情況，還有Talk模塊負責解釋並生成語音。

除此之外，社會意識模塊也在其間發揮作用。它使得智能體能夠解釋和響應來自其他智能體的社交線索，支持合作與交流。

這還不算完，甚至還有一個專門的社會交互模塊，負責處理智能體之間的社交交互，如對話的理解和回應。

當然，關鍵核心還是記憶模塊。它負責存儲和檢索不同時間尺度上的對話、動作和觀察，包括工作記憶（WM）、短期記憶（STM）和長期記憶（LTM）。

這個模塊主打一個細緻，智能體不僅能記住每個步驟的描述，甚至還能記住對話中的提問、回答的順序以及雙方強調的重點內容。

最後，前面提到的認知控製器（CC）模塊，負責保證整體輸出連貫性。

新的文明誕生了

為了評估智能體的表現，團隊分別測試了單智能體和多智能體的行為。

對於單智能體，一個重要評價標準為：能否產生專業化分工。

為此，團隊提出了評估智能體專業化的3個基本原則：

在角色選擇和轉換方面，擁有自主性
其專業化應該通過互動和經驗來體現，沒有明確的方向和限制
其選擇的角色，應該體現在與其專業相一致的行為中

展開來說，團隊在一個Minecraft村莊中，投放了30個初始配置完全一樣的智能體。

實驗預設的前提是，只有存在社會意識，才會驅動社會分工產生。

而這30個智能體需要通過社交互動，瞭解其他人的行為動機，並最終確定自己的分工目標。

最後結果顯示，這群智能體自行發展了不同的職業，有農民、工程師等。

且一旦移除社會意識，智能體會選擇更多的同質角色，這些角色也不會隨著時間推移而持續下去。

接下來，團隊繼續測試了多智能體，主要聚焦在一群AI如何處理社會規則。

通過觀察一個由25位選民組成的社會，團隊發現這群智能體最初遵守了預設的稅法，按照規定的時間繳納稅費。

然而，隨著社會中有影響力的個體對公眾輿論產生影響，選民們通過民主投票決定了稅率的調整。

當然，新的稅率通過後，大家也按照新稅率完成了稅款支付。

更進一步，團隊繼續擴大了測試範圍——分佈在6個城鄉的500位智能體組建的社會。

結果顯示，智能體自發地創造並傳播了文化內容，例如舞蹈、生態意識和惡作劇等，而且還形成了一個虛擬的宗教，並通過智能體協會進行傳播。

更有意思的是，城鄉之間最終還形成了不同的文化圈。

看完智能體的上述表現，網民們也直言非常興奮，紛紛期待更大規模智能體的到來！

你怎麼看？

論文：

https://www.openread.academy/zh/paper/reading?corpusId=512036838

GitHub：

https://github.com/altera-al/project-sid

參考鏈接：

[1]https://digitalhumanity.substack.com/p/project-sid-many-agent-simulations

[2]https://x.com/GuangyuRobert/status/1852397383939960926

[3]https://news.ycombinator.com/item?id=42035319