當Agent開始自己創造自己,AI產品爆發還會是遙遠的夢嗎?
2024年,AI 領域中最炙手可熱的話題無疑是Agent。
「大模型很酷,但我能用它做什麼?「這是2023年的年度AI應用之問。而到了2024年,智能體(Agent)已成為這個問題最有希望的解藥。
智能體能夠通過複雜流程和工具使用,使大模型能處理更複雜、更定製化的任務,最終產生具有自主性、感知能力、決策能力和行動能力的軟件實體或物理實體。吳恩達、Jim Fan等圈內大佬紛紛投身其中,證明智能體的有效性。
吳恩達教授今年3月在博客中提出,在 HumanEval 數據集中使用 GPT-3.5(Zero-shot)的測試正確率為 48.1%。 GPT-4(Zero-shot)為 67.0%。而通過與 Agent workflow 配合,GPT-3.5 實現了 95.1%的正確率。
因此這一年來,從大公司到民間高手都在搭建智能體。大到微軟的Copilit,小到無厘頭的AI算命,Langchain、Coze、Dify這些搭建智能體框架的工具也雨後春筍般開枝散葉,熱度持續上漲。
OpenAI 的前科學家Andrew Karpathy曾說,普通人、創業者和極客在構建AI 智能體方面,相比OpenAI這樣的公司甚至更有優勢。
一個以AI智能體工作流為依託的新產品經理時代要來了嗎?不一定,因為AI可能比人類更會搭建智能體。
自動化的循環邏輯
8月19日,不列顛哥倫比亞大學的三位研究人員發表了一篇名叫《自動化設計智能體系統》的論文。在這篇論文里,他設計了一個讓AI自己發現並搭建智能體,還能自己迭代的系統。
回想一下OpenAI對智能體的經典定義,智能體就是一個能夠存儲知識,能夠進行計劃,並且應用工具的產品。
而我們在用工作流構建智能體的時候,也是利用已有的知識(對智能體形式的知識),自己進行計劃(搭建流程)並利用工具(接入API)最終去執行產出,並沒有超越智能體自己的能力範圍。
那為什麼不搭建一個能自動發現和設計智能體的智能體呢?
論文作者就按照這個思路,把設計者稱為元智能體,他讓它去設計新的智能體。把設計好的智能體加到數據居里作為資料,不停迭代出新的、更強版本的智能體。
這整一套方法,他們稱之為ADAS(Automated Design of 智能體ic Systems)。
那麼,這一系統具體如何落地呢?
讓鏈條轉起來
ADAS系統中生成新智能體的過程可以被分為三個部分:
第一部分建立搜索空間,可以理解為通過一些基礎工具和規則,它可以設計出潛在的新智能體。
第二部分是運行搜索算法,它規定了元智能體怎麼利用搜索空間,取用其中的元素去具體搭建新的智能體。
最後一部分是運行評估函數,它會根據性能等目標對搭建出來的智能體進行評估。
研究人員在論文中分步解釋了如何構建以上三個核心部分。
首先得確定建構搜索空間的基礎元素,研究人員認為最好的方法是代碼。
這是因為代碼具有圖靈完備性,能表達所有可能性。所以,理論上元智能體能夠發現任何可能的構建模塊(如提示、工具使用、控制流程)以及以任何方式組合這些構建模塊的智能體系統。
更重要的是,Langchain這樣用來構建智能體的網站中已存在的各種工作流都已被代碼化。因此相關數據手到擒來,不用再轉換。而工具調用,如RAG(retrieval augmented generation檢索增強生成)之類的能力組件也已經有了非常充分的代碼基礎。
採用代碼去構建搜索空間,也意味著ADAS生成的智能體可以直接運行,用來糾錯、跑分,無需人工再幹預。
定義好了搜索空間,研究人員就開始設計搜索算法,即讓元智能體去探索可能去完成任務的方法。這一過程基本上都是依靠提示詞工程完成的。
首先是先給它一系列系統提示詞。
然後,把基礎Prompt提到的資料給到元智能體,包括
1.任務的基本描述。
2. 最基本的框架代碼,比如格式化提示、封裝等操作名稱,還有調用其他基礎模型(FM)、API的能力。
3.任務輸入輸出的格式和範例。
4.原來迭代中生成的一些智能體形成的範例庫,包括其基線測試結果。
根據這些基礎提示,ADAS就可以開始運作,生成一個去解決特定問題的智能體。
在這個過程中,元智能體會進行兩輪反思保證生成的智能體具有新穎性和正確性。它會檢查新生成的代碼框架是否有錯誤,相對於智能體範例居里的過往結果是否有足夠的創新。
元智能體還需要基於其對實用性能能力的”理解”對生成的智能體進行初步評估,判斷它是不是比之前的智能體性能更好。
當這些條件中有一些不滿足時,元智能體就得對生成的智能體或者修改或者乾脆回爐重造。
兩輪反思和修改過後,元智能體會把覺得又新又好的新生成的智能體送給第三步的評估系統。
評估系統會根據基線測試對這個智能體的能力打一個客觀分數,然後把它返回給到智能體範例庫。
元智能體會再根據之前的評分結果和範例居里的過往範例,繼續進行下一次迭代優化,以達到更高的任務性能分數。
一整條全自動化的鏈條就在這一過程中誕生了。而要生成一個效果絕佳的智能體,可能需要進行兩位數以上次數的迭代。
超越手搓智能體
通過ADAS方法自動化流程得到的智能體能有多複雜?下圖就是經過14次迭代後生成的一個智能體框架。
這個智能體的結構中有五個思維鏈給出初步答案。三個專家專家模型和一個模仿人類給出評價的模型對這些答案給出反饋後,這些答案會在優化流程階段進行三次修改加強。最後經評估篩選出來三個結果,合併給出最終答案。
這種的複雜度的設計水平,如果是人類進行操作,估計得花一週時間。這還只是寫提示詞和設計架構的時間,更別提測試和橫向比較了。
當然,這也是元智能體在設計中不斷迭代的結果。
在迭代過程中,它生成智能體的能力也隨著迭代次數快速增強。在第三次迭代的時候,元智能體就自己學會了多思維鏈策略,在第四次迭代的時候就學會了利用動態記憶去優化回答。到了第14次,它生成的智能體就達到了上面提到的複雜度。
最終,其最優解法的能力相較於最初的單純大語言模型能提升超過250%,比起效果最好的手挫智能體COT-SC(多思維鏈回答)方法提升達到75%。
不光是ARC,ADAS模式下生成智能體在各個方面比起當前最強的所有基準手搓智能體,如COT、LLM Debate、Self-Refine都顯著得更強大。而且越是處理複雜任務和跨領域應用時,ADAS生成的智能體越強。
而且這些生成的智能體本身便具有一定的遷移能力,比如能解決科學問題的智能體同樣可以在數學方面取得很好的成績。因此,一個最優框架很可能可以解決很多領域的相關問題。
雖然手搓智能體的時代即將結束了,但智能體範式的發現時代也許還將持續。在整體的測試中,ADAS並沒有發現當下智能體建構範式以外的新的建構方法,更多的是重組和使用這些方法。
然而,對於一般的AI Agent開發者而言,這已經足夠替代他們的工作了。
不過ADAS的流行可能還需要邁過一個坎,那就是成本問題。
據研究人員透露,在 ARC 上進行一次搜索和評估的OpenAI API成本約為 500 美元,而在推理和問題解決領域內的一次運行成本大約為 300 美元。也就是每次迭代大概需要20美元。對比如此高昂的成本,現階段人力仍然有一定優勢。
但研究人員也表示,因為研究得早,他們用的是「gpt-3.5-turbo-0125」模型。而最新的 GPT-4 模型「gpt-4o-mini」價格只有不到「gpt-3.5-turbo-0125」的三分之一,且性能更佳。而且從實驗看,以GPT 3.5能力迭代出來的智能體在一定數量的迭代後就進入性能瓶頸了,十四次後的迭代都是浪費。因此,擁有更好評估和資源管理的設計,也能大幅降低成本。
顯然,人力的價格優勢也維持不了多久了。
智能體的爆發,是否已真正拉開序幕
這一自動化的技術為何如此重要?
在移動互聯網時代,面向各種賽道的各種App百花齊放,共同堆疊出了科技繁榮時代。但因為當時的新工具需要學習,移動App的開發也經歷了較長的滲透階段,最終才容納進了足夠的開發者。
在更早的時代,這個速度更慢。按照Geoffrey Moore在90年根據個人電腦的經驗提出的”跨越鴻溝”理論,在技術出現初期幾年,只有大概13.5%的erarly adopter會用到這一技術,這還不是開發,而是使用。
所以開發者的短缺,可能是技術推廣的一個重要瓶頸。
當然,智能體搭建的開發滲透速度可能要快很多。因為它比起過往的軟件開發要簡單得多。比如前一陣火爆的Wordware,能讓一般用戶用自然語言就能完成智能體的建構,更降低了門檻。
但思維鏈、多步循環等設計仍然非常複雜,過程中需要用到的工具也越來越多。因此,能夠真正投身於智能體開發並且用好這個工具的人並不多。
朱克伯格曾在和黃仁勳的對談中稱,就算大模型技術不再發展了,光是吃透智能體的潛力就得花五年。
因此,相比於技術,開發者可能更是智能體還沒爆發的核心瓶頸。現在能做這事的人還是太少。
但是,Agent卻很多。
如果這一自動生成調優Agent的技術被更多商業公司採納優化,早期技術人員的瓶頸自然不複存在了。智能體對各個領域的覆蓋能力和能力深度的探索速度都會大幅提高。
也許就在明年,人類史上的第一個Killer AI App,作者就是個AI。
本文來自微信公眾號「騰訊科技」,作者:郝博陽,36氪經授權發佈。