AI大軍接管六大科技巨頭,老闆打工人皆是AI,效仿微軟組織結構,工作效率驚人
你有沒有想過,或許未來某天,AI大軍完全能夠承擔公司重任,人類是否會淪為配角?
小紮堅信,「未來世界上AI智能體,將比人類還要多」。
那麼,如果這些AI也有企業文化,會怎樣?
它們是否也像人類一樣,既有手握決策大權的AI,也有苦哈哈幹活的AI。
幾個月前,OpenAI曾被曝出,內部定義了五級AGI路線,L5——組織者:可以完成組織工作的AI。
這所說的,或許就是未來公司的組織架構圖。
因為多個智能體的合作,正在崛起。
此前,一項研究表明,擁有30+AI智能體系統,在幾乎任何任務中,都優於簡單的LLM調用,同時還減少了幻覺,提高了準確性。
但是,多個智能體之間,應該如何進行實際協作呢?
在探索改善AI在軟件工程任務中的表現的方法時,Alex Sima突然有了靈感:
如果將AI智能體之間互動機構化,讓其類似於科技巨頭的「組織架構圖」,會怎樣?
接下來,Alex讓AI接管了6大科技巨頭——亞馬遜、Google、微軟、蘋果、Meta、Oracle,看看它們如何協作。
先來一張圖,感受下。
01 關鍵要點
以下是,Alex將AI智能體,組織成類似蘋果、微軟、Google等公司結構後,得到的一些關鍵要點:
– 有多個「競爭」團隊(即競爭生產最佳最終產品)的公司,如微軟、蘋果,表現優於集中化的層級結構。
– 具有單點故障(比如一個領導者做出重要決策)的系統,如Google、亞馬遜和Oracle,表現不佳。
– 大型科技公司的組織結構,對問題解決能力有適度但明顯的影響。
02 AI智能體與科技巨頭組織
之前通過簡單增加AI智能體數量,來提升性能的方法,比如SWE-bench,並未取得顯著的成效。
這表明,僅僅依賴數量的增加,並不能解決問題。
那麼,有什麼其他的方法可以讓AI智能體在軟件工程方面變得更好?
三週前,Alex偶然看到了James Huckle關於「康威定律」的一篇文章——軟件和產品架構註定會反映創造它的組織結構。
James展示了一幅插圖,揭示了亞馬遜、Google、Facebook、微軟、蘋果和Oracle的戲劇化組織結構,並提出了一個想法:
就像大型科技公司中的人類一樣,多智能體通信結構可能會塑造問題解決方法。
Alex受到啟發,決定在SWE-bench實例上測試James的假設。
03 實驗設置
作者將AI智能體組織成不同的公司結構,在SWE-bench-lite的13個實例「mini」子集上,評估了六種不同的組織結構。
在構建這六種組織時,他基於一些核心觀察設計了多智能體組織結構:
亞馬遜
頂層有一個「管理者」的二叉樹。
為了複製這一結構,Alex使用了大量執行代碼庫搜索的智能體,和一個最終執行代碼庫更新的單一智能體。
類似亞馬遜的樹狀結構,但中間層之間有更多連接。
Alex通過在單一層內聚合複製所有智能體結果,並將其傳遞給下一層的智能體。
Meta(Facebook)
缺乏層級結構,但仍是一個智能體之間有許多連接的網狀組織。
Alex通過增加不同智能體之間的轉換可能性,來修改原始的智能體設計。
微軟
強調競爭團隊,每個團隊有自己的層級。
本質上,Alex重新調整了亞馬遜的結構(減少智能體數量),並使用向量相似性投票方法,從三次單獨運行中選擇「最佳」解決方案(每次運行對層級結構略有調整)。
蘋果
許多小型競爭團隊,每個團隊都有自己的最小結構。
Alex使用了與微軟相同的「最佳解決方案」方法,但進行了更多沒有智能體層級的運行(每次運行有不同的轉換)。
Oracle
有兩個不同的團隊,一個較大的「法律」二叉樹和一個較小的工程樹。
Alex將法律團隊解釋為,搜索代碼庫和檢索關鍵上下文的智能體,而工程團隊由實際編寫代碼的智能體組成。
兩個團隊的結構類似於亞馬遜,頂層有一個單一智能體協調「法律」和「工程」之間的信息傳遞。
04 評估結果
為了評估SWE-bench上的每組patch,作者使用了SWE-bench evaluation。
結果如下:
組織結構圖績效分析
以下是作者對不同公司結構,如何影響性能的一些觀察:
– 有競爭力的團隊增加成功機會。
表現最佳的兩個(微軟和蘋果)都有多個團隊在競爭解決問題,而其他公司似乎只有一個巨大的團隊生成單一patch。
多個團隊允許增加問題解決方法的多樣性,提高解決問題的概率。
– 有單點故障的結構表現不佳。
提到單點故障,是指是那些有高層管理者/智能體可以完全改變運行結果的公司(如Google、亞馬遜和甲骨文)。
在協調多個智能體之間的互動時,一個常見問題是某個智能體失敗——導致可能出現一個智能體改變團隊問題解決策略方向的情況。
具有單點故障的公司容易受到這些問題的影響。
另外,表現最好的兩家公司,微軟和蘋果,恰好是世界上市值最大的兩家科技公司。
事實證明,在現實世界中似乎最有效的組織結構對AI智能體也同樣有效。
05 對SWE-bench進展的思考
看著不同公司結構的結果,在這個Mini基準上是可以預料到的。
總的來說,似乎在一個像軟件工程這樣複雜的任務中,增加更多的智能體,或改變這些智能體的組織方式,只會帶來邊際性能的提高。
雖然論文More Agents Is All You Need 發現,準確率有相當大的提高(約20%),但在GSM8K(小學數學)測試中,30個智能體後性能明顯趨於平緩。
研究還發現,過於複雜的任務(如SWE-bench中的任務)可能超出模型的推理能力,導致性能增益遞減。
坐著在SIMA中同樣驗證了這一發現,最多隻比基礎架構提高了2-3%(使用40多個智能體)。
他預計,這種小幅提升在其他非多智能體架構中也會一致。
作者認為,若想在基準測試上取得更大進步,需要改變智能體的實際邏輯推理能力,或者它們可以採用(或被給予)的解決軟件問題的策略和方法。
這可以通過更強大的基礎模型(GPT-5)或給予智能體更廣泛的工具來實現。
這與公司運作是一樣的。
歸根結底,如果你不僱用更聰明的員工,或給他們更好的資源,無論你如何組織他們或有多少人,他們的產出都不會提高。
不得不承認,13個實例的性能可能與完整基準測試的實際性能相差甚遠。
僅在這個mini子集中的差異就足夠顯著,值得關注(從Google到蘋果提高了約50%)。
基礎模型/工具可能是智能體軟件工程的限制因素,但隨著基礎模型的改進,探索智能體通信結構(無論是否在公司組織中)絕對應該被測試。
正如James Huckle所說,這個概念可能成為AI智能體設計中的「關鍵超參數」,不同的組織結構可能更適合不同的任務。
參考資料:
https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures
本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。