AI大軍接管六大科技巨頭,老闆打工人皆是AI,效仿微軟組織結構,工作效率驚人

你有沒有想過,或許未來某天,AI大軍完全能夠承擔公司重任,人類是否會淪為配角?

小紮堅信,「未來世界上AI智能體,將比人類還要多」。

那麼,如果這些AI也有企業文化,會怎樣?

它們是否也像人類一樣,既有手握決策大權的AI,也有苦哈哈幹活的AI。

幾個月前,OpenAI曾被曝出,內部定義了五級AGI路線,L5——組織者:可以完成組織工作的AI。

這所說的,或許就是未來公司的組織架構圖。

因為多個智能體的合作,正在崛起。

此前,一項研究表明,擁有30+AI智能體系統,在幾乎任何任務中,都優於簡單的LLM調用,同時還減少了幻覺,提高了準確性。

論文地址:https://arxiv.org/pdf/2402.05120論文地址:https://arxiv.org/pdf/2402.05120

但是,多個智能體之間,應該如何進行實際協作呢?

在探索改善AI在軟件工程任務中的表現的方法時,Alex Sima突然有了靈感:

如果將AI智能體之間互動機構化,讓其類似於科技巨頭的「組織架構圖」,會怎樣?

接下來,Alex讓AI接管了6大科技巨頭——亞馬遜、Google、微軟、蘋果、Meta、Oracle,看看它們如何協作。

先來一張圖,感受下。

01 關鍵要點

以下是,Alex將AI智能體,組織成類似蘋果、微軟、Google等公司結構後,得到的一些關鍵要點:

– 有多個「競爭」團隊(即競爭生產最佳最終產品)的公司,如微軟、蘋果,表現優於集中化的層級結構。

– 具有單點故障(比如一個領導者做出重要決策)的系統,如Google、亞馬遜和Oracle,表現不佳。

– 大型科技公司的組織結構,對問題解決能力有適度但明顯的影響。

02 AI智能體與科技巨頭組織

之前通過簡單增加AI智能體數量,來提升性能的方法,比如SWE-bench,並未取得顯著的成效。

這表明,僅僅依賴數量的增加,並不能解決問題。

那麼,有什麼其他的方法可以讓AI智能體在軟件工程方面變得更好?

三週前,Alex偶然看到了James Huckle關於「康威定律」的一篇文章——軟件和產品架構註定會反映創造它的組織結構。

James展示了一幅插圖,揭示了亞馬遜、Google、Facebook、微軟、蘋果和Oracle的戲劇化組織結構,並提出了一個想法:

就像大型科技公司中的人類一樣,多智能體通信結構可能會塑造問題解決方法。

Alex受到啟發,決定在SWE-bench實例上測試James的假設。

03 實驗設置

作者將AI智能體組織成不同的公司結構,在SWE-bench-lite的13個實例「mini」子集上,評估了六種不同的組織結構。

在構建這六種組織時,他基於一些核心觀察設計了多智能體組織結構:

亞馬遜

頂層有一個「管理者」的二叉樹。

為了複製這一結構,Alex使用了大量執行代碼庫搜索的智能體,和一個最終執行代碼庫更新的單一智能體。

Google

類似亞馬遜的樹狀結構,但中間層之間有更多連接。

Alex通過在單一層內聚合複製所有智能體結果,並將其傳遞給下一層的智能體。

Meta(Facebook)

缺乏層級結構,但仍是一個智能體之間有許多連接的網狀組織。

Alex通過增加不同智能體之間的轉換可能性,來修改原始的智能體設計。

微軟

強調競爭團隊,每個團隊有自己的層級。

本質上,Alex重新調整了亞馬遜的結構(減少智能體數量),並使用向量相似性投票方法,從三次單獨運行中選擇「最佳」解決方案(每次運行對層級結構略有調整)。

蘋果

許多小型競爭團隊,每個團隊都有自己的最小結構。

Alex使用了與微軟相同的「最佳解決方案」方法,但進行了更多沒有智能體層級的運行(每次運行有不同的轉換)。

Oracle

有兩個不同的團隊,一個較大的「法律」二叉樹和一個較小的工程樹。

Alex將法律團隊解釋為,搜索代碼庫和檢索關鍵上下文的智能體,而工程團隊由實際編寫代碼的智能體組成。

兩個團隊的結構類似於亞馬遜,頂層有一個單一智能體協調「法律」和「工程」之間的信息傳遞。

04 評估結果

為了評估SWE-bench上的每組patch,作者使用了SWE-bench evaluation。

結果如下:

組織結構圖績效分析

以下是作者對不同公司結構,如何影響性能的一些觀察:

– 有競爭力的團隊增加成功機會。

表現最佳的兩個(微軟和蘋果)都有多個團隊在競爭解決問題,而其他公司似乎只有一個巨大的團隊生成單一patch。

多個團隊允許增加問題解決方法的多樣性,提高解決問題的概率。

– 有單點故障的結構表現不佳。

提到單點故障,是指是那些有高層管理者/智能體可以完全改變運行結果的公司(如Google、亞馬遜和甲骨文)。

在協調多個智能體之間的互動時,一個常見問題是某個智能體失敗——導致可能出現一個智能體改變團隊問題解決策略方向的情況。

具有單點故障的公司容易受到這些問題的影響。

另外,表現最好的兩家公司,微軟和蘋果,恰好是世界上市值最大的兩家科技公司。

事實證明,在現實世界中似乎最有效的組織結構對AI智能體也同樣有效。

截圖來自CompaniesMarketCap,2024年07月25日截圖來自CompaniesMarketCap,2024年07月25日

05 對SWE-bench進展的思考

看著不同公司結構的結果,在這個Mini基準上是可以預料到的。

總的來說,似乎在一個像軟件工程這樣複雜的任務中,增加更多的智能體,或改變這些智能體的組織方式,只會帶來邊際性能的提高。

雖然論文More Agents Is All You Need 發現,準確率有相當大的提高(約20%),但在GSM8K(小學數學)測試中,30個智能體後性能明顯趨於平緩。

研究還發現,過於複雜的任務(如SWE-bench中的任務)可能超出模型的推理能力,導致性能增益遞減。

坐著在SIMA中同樣驗證了這一發現,最多隻比基礎架構提高了2-3%(使用40多個智能體)。

他預計,這種小幅提升在其他非多智能體架構中也會一致。

作者認為,若想在基準測試上取得更大進步,需要改變智能體的實際邏輯推理能力,或者它們可以採用(或被給予)的解決軟件問題的策略和方法。

這可以通過更強大的基礎模型(GPT-5)或給予智能體更廣泛的工具來實現。

這與公司運作是一樣的。

歸根結底,如果你不僱用更聰明的員工,或給他們更好的資源,無論你如何組織他們或有多少人,他們的產出都不會提高。

不得不承認,13個實例的性能可能與完整基準測試的實際性能相差甚遠。

僅在這個mini子集中的差異就足夠顯著,值得關注(從Google到蘋果提高了約50%)。

基礎模型/工具可能是智能體軟件工程的限制因素,但隨著基礎模型的改進,探索智能體通信結構(無論是否在公司組織中)絕對應該被測試。

正如James Huckle所說,這個概念可能成為AI智能體設計中的「關鍵超參數」,不同的組織結構可能更適合不同的任務。

參考資料: 

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。