為什麼說大模型無法取代AI Agent ?
OpenAI CEO Sam Altman最近在一次互動訪談中談到,人類帶寬的限制可能會被Agent打破,Agent能夠像一個聰明的同事一樣,與用戶一起合作完成項目。Agent的商業價值已經毋庸置疑,但與此同時,也有越來越多的人擔心Agent涉及的核心技術會因為大模型的迭代優化而直接在模型層把Agent的相關功能取代。
從技術圖譜的角度看,大模型能否取代AI Agent?我的答案是否定的。
下面是最有名的一張AI Agent的技術架構圖,描述了Agent需要具備的四大核心能力,我們來逐個討論:
1. Plan(規劃)能力。技術上,規劃能力看似是大模型和Agent最重合的部分,特別是在o1系列模型發出之後,由於推理有了scaling law,並且在數學能力上有了很大進步,似乎我們就該用大模型的規劃能力,但事實上,有兩大因素會使得AI Agent 規劃能力的發展會和大模型的規劃能力不一樣,其中,最核心的是成本和響應速度。
具體來說,最好的大模型通常也是最貴的,o1模型又進一步提高了模型推理所需要的時間。所以在實際商業場景中,通過工程手段降低對大模型參數和模型推理時間的要求,是實現大模型應用的ROI為正的很重要的因素。本質上就是建立緩存系統能夠使得不同複雜度、不同價值的業務問題,能夠在合適的成本下被解決,這是AI Agent的規劃能力和大模型規劃能力的最大區別。
第二個因素是個性化的部分,AI Agent的推理可以低成本的用到短期、長期記憶來輔助決策,這使得它能夠更有效地利用「系統1/快思考」機制,來得到高質量的答覆和響應,這也是Agent和大模型的規劃能力不一樣的地方。
2. 短時記憶/長時記憶(Short/Long term memory)。記憶是大模型本身不涉及的技術,記憶在應用中需要可修改可解釋,大模型是把所有數據都壓縮進模型參數中,做不到可修改可解釋。而且短時記憶、情景記憶和過程記憶也正是AI Agent能夠利用來做到低成本和個性化的很重要的一個抓手。
3. 工具使用(Tool Use)。大模型有個功能叫做function-call,與AI Agent的使用工具的能力相對應。AI Agent可以利用大模型function-call的能力擴展可調用的工具數量,此外,通過「分而治之」的方式,AI Agent可以通過構建分層的意圖識別,利用大模型的規劃能力進行意圖識別、分類,然後在第二層目標處理中,進一步使用大模型的function-call能力,從而達到倍增的工具選擇能力。
舉個例子,在電商的智能客服場景,我們可以分成售前/售中/售後三類場景,每個場景都配置不同的工具,然後在多輪對話中識別出客戶的需求到底是哪一類之後,再進一步的進行規劃和工具使用,從而能夠滿足更多樣的場景需求。
4. 行動(Action)。大模型當前直接執行行動的能力仍然偏弱,本質上是和環境互動的能力偏弱。在所謂的Computer-use、Phone-use場景中,在關鍵的OSWorld測試集下,當前最好的大模型也只有15%的準確率,離人類平均水平的70%的準確率差距極大。所以Agent在這個模塊中會有專門的驗證和調試模塊來保障行動執行的準確率和安全性,這裏最核心的是有環境的仿真能力,這也是Agent和大模型不一樣的技術路線之一。
大模型和AI Agent完全屬於兩個不同的品類,一個是思考系統,一個是行動系統,所以並不會由於大模型的迭代優化,而在模型層替代AI Agent的功能。此外,AI Agent有自己的產品價值和技術體系,可以沉澱相關的比較優勢。
可以參考下面這張架構圖,這些是AI Agent和大模型最大的差異點。
AI Agent是領域驅動的,其中有個最核心的理念叫做「信念」,即對何為真實以及何為有價值的判斷。打個比方,就像圖書館里有眾多書籍,如果兩本書在知識上有衝突,以中國作者寫的為最佳答案,還是以美國作者寫的為最佳答案,對閱讀者後續的規劃行動會產生截然不同的影響。
在AI Agent進入到具體企業業務場景,在這些知識面對具體業務決策以及拿到商業上的反饋後,如何總結出適合這家公司或者這個專家的信念體系,就是AI Agent的核心功能。在我看來,最能體現AI Agent廠商核心能力的就是如何把大模型能力和企業內部的私域知識/數據有效結合,用ROI最高的方式去服務企業業務需求。