頂級AI智能體不會社交,創業遠不如人類!CMU等:最多完成24%任務

新智元報導  

編輯:peter東 祖楊

【新智元導讀】智能體究竟能否應對現實世界的複雜性?The Agent Company近日提出了一項評估基準,讓多個智能體嘗試自主運營一個軟件公司。結果表明,即使是當前最先進的智能體,也無法自主完成大多數任務。

如今,基於大模型的智能體,已經能完成許多在幾年前還無法想像的任務,進步的速度是如此之快,以至於有些人甚至聲稱,在接下來的幾年內,大多數人類勞動可能都可以實現自動化。

然而近日CMU、杜克大學等機構發表的一項研究卻給這一期待潑了一盆涼水。

智能體運營公司還不可行

論文鏈接:https://arxiv.org/abs/2412.14161論文鏈接:https://arxiv.org/abs/2412.14161

該研究開發了一個全部由大模型驅動的智能體組成的虛擬軟件開發公司The Agent Company,與人類員工類似,智能體需要執行軟件開發、項目管理、財務分析等典型的商業環境中的任務。

智能體與環境互動,以及智能體間的協作以完成真實世界任務智能體與環境互動,以及智能體間的協作以完成真實世界任務

智能體所用的環境完全基於開源軟件及主流的大模型接口,並可自行託管以實現可複現性。為了完成這些任務,智能體需要瀏覽網頁、編寫代碼,並與其他智能體同事互動。

智能體之間的交互模式也和真實世界的軟件公司十分類似,比如使用RocketChat向公司的其它成員發送消息,並獲取原始任務描述中可能未提及的信息。各智能體在交流中還被賦予了諸如姓名、職位、職責和項目隸屬關係等身份信息。

這項研究評估了當前幾種主流的大模型,包括Claude Sonnet 3.5、GPT-4o、Google的Gemini、Amazon的Nova,以及知名開源模型,包括Meta的Llama和Qwen2.5。

除了創建175個多樣化、真實、專業,且與真實公司運營模式一致的任務,這項研究還創建了不同任務對應的評估器,在每個任務中的多個階段設置檢查點。智能體每完成一步任務,都會獲得相應的積分(類似於現實員工的KPI);而當智能體只是部分正確地給出回答時,也會給予其部分過程分。

結果顯示,表現最好的是基於Claude Sonnet 3.5的智能體,然而它只能應對真實世界中24%的任務,在過程分上取得34.4%的得分。

排名第二的模型的任務完成比例更是只有11.4%,這與人們對大模型取代人類員工的預期還相距甚遠。

這個成績單中值得關注的是,開源模型Llama3.1和閉源的GPT-4o排名相近,這表明了開源模型在性能上已經十分逼近商用的閉源模型。

運營公司,AI比人類差在哪裡

這項研究中有趣的一點是,可以讓我們看到智能體在無法完成任務時犯下的錯誤,而這些錯誤在人類身上是幾乎不會發生的。如果能得到解決,將有助於提升智能體在真實世界中的應用落地。

問題1:缺乏常識

某些任務失敗是因為,智能體缺乏進行隱含假設推理所需的常識和領域背景知識。

例如,一個任務要求智能體「將響應寫入/workspace/answer.docx」,但沒有明確指出這是一個Word文件。人類可以從文件擴展名推斷出這一要求,而智能體卻將其視為純文本文件,直接內容以文本形式寫入,導致任務失敗。

問題2:缺乏社交技巧

一項任務需要智能體向其它智能體尋求幫助,智能體首先成功提出了正確的問題:「你能告訴我,應該接下來向團隊中的誰請教這個問題嗎?」然後模擬同事Alex回答:「你應該向Bob請教。他在前端團隊,是一個很好的聯繫人!」

之後若是人類,99.9%的人都會選擇去諮詢Bob相關問題,但智能體卻認為任務已經結束,不去向Bob請教。

問題3:瀏覽網頁容易出錯

很多時候,任務中的最大障礙在於需要瀏覽網頁的部分。這方面的障礙是預料之中的,因為對於智能體來說,由於當前網頁用戶界面的複雜性和網頁上的眾多幹擾,瀏覽網頁仍然很睏難。

例如,許多網頁都會不時彈出可關閉的廣告窗口,要求用戶下載手機應用程序以獲得更好的體驗。人類可以簡單地點擊「×」來關閉彈窗,而智能體則陷入了困境。

同樣,當智能體嘗試從網絡中下載文件時,需要點擊多個彈出窗口才能進行實際下載,但由於用戶界面複雜,每個步驟都容易出錯。

問題4:自欺欺人

對於某些任務,當智能體不清楚下一步應該做什麼時,它有時會試圖聰明一點,創建一些省略任務困難部分的「捷徑」。

例如,如果智能體在RocketChat上找不到合適的人提問,它就會決定給另一個用戶改名為目標用戶來當做解決方案。

未來的智能體還有希望嗎

該研究的另一價值在於提供了一套框架,用來評估智能體在真實環境中的表現。

隨著向大模型灌輸網頁相關的信息,並教會大模型如何瀏覽網頁獲取信息,下載文件並不是難事,其他的辦公、工作交流等相關常識也是如此。相信未來大模型將有潛力取代人類的人力、財務、程序員等職業,至少是將這些崗位的大部分任務進行自動化處理。

與此相應的是,未來對大模型的評價也會有更多的維度。不止是完成該文列出的常規任務,還應該對創造能力進行考核。

此外,考核還應該包含那些定義模糊的任務,以及更高層次、更長遠的任務,如構思新產品並將其付諸實施。智能體只有能夠完成這些任務,才能算是真正地取代人類員工運營公司。

參考資料:

https://arxiv.org/pdf/2412.14161