Google發76頁智能體白皮書,你的「AI替身」已上線
Google最新發佈的76頁AI智能體白皮書,深入剖析了智能體的應用前景。智能體通過感知環境、調用工具和自主規劃,能夠完成複雜任務並做出高級決策。從智能體運維(AgentOps)到多智能體協作,這份白皮書為AI智能體指明了方向。
近日,Google發表了76頁的AI智能體白皮書!
智能體通過感知環境,並利用工具策略性地採取行動,實現特定目標。
其核心原理,是將推理能力、邏輯思維以及獲取外部信息的能力融合,完成一些基礎模型難以實現的任務,做出更複雜的決策。
這些智能體具備自主運行的能力,它們可以追尋目標,主動規劃後續行動,無需明確指令就能行動。

白皮書深入探討了智能體的評估方法,介紹了Google智能體產品在實際應用中的情況。
參與過生成式AI開發的人都知道,從一個創意發展到概念驗證階段並不難,但想保證最終成果的高質量,並將其投入實際生產,就沒那麼簡單了。
在將智能體部署到生產環境時,質量和可靠性是最大的問題,智能體運維(AgentOps)流程是優化智能體構建過程的有效方案。
智能體運維
過去兩年,生成式AI(GenAI)發生了巨大變革,企業客戶越來越關注如何將解決方案真正應用到實際業務中。
智能體與運維(AgentOps)屬於生成式AI運維的一個分支,重點關注如何讓智能體更高效地運行。
AgentOps新增了一些關鍵組件,包括對內部和外部工具的管理、智能體核心提示(像目標、配置文件、操作指令)的設置與編排、記憶功能的實現,任務分解等。
開發運維(DevOps)是整個技術運營體系的基石。
模型應用開發在一定程度上繼承了DevOps的理念和方法,機器學習運維(MLOps)則是在DevOps的基礎上,針對模型的特點發展而來的。

運維離不開版本控制、通過持續集成 / 持續交付(CI/CD)實現的自動化部署、測試、日誌記錄、安全保障,以及指標衡量等能力。
每個系統通常會根據指標進行優化,衡量系統的工作情況、評估結果和業務指標,然後通過自動化流程獲取更全面的指標,一步步提升系統性能。
不管叫「A/B測試」「機器學習運維」,還是「指標驅動開發」,本質上都基於相同的理念,AgentOps中也會遵循這些原則。

需要注意的是,新的技術實踐並不會完全取代舊的。
DevOps和MLOps中的優秀實踐經驗,對於AgentOps來說依然不可或缺,它們是AgentOps順利運行的基礎。
比如,智能體調用工具時會涉及API,而這個過程中用到的API,和非智能體軟件使用的API是一樣的。
智能體成功指標
大多數智能體都是圍繞完成特定目標設計的,目標完成率是一個關鍵指標。
一個大目標往往可以細分成幾個關鍵任務,或者涉及一些關鍵的用戶交互環節。這些關鍵任務和交互都應單獨監測和評估。
每個業務指標、目標,或者關鍵交互數據,都會按照常見的方式進行彙總統計,比如計算嘗試次數、成功次數、成功率等。
另外,從應用程序遙測系統獲取的指標,像延遲、錯誤率等,對智能體也非常重要。
監測這些高級指標,是瞭解智能體運行狀況的重要手段。

用戶反饋也是一個不可忽視的指標。
在智能體或任務執行的過程中,一個簡單的反饋表,就能幫助瞭解智能體哪些地方表現得好,哪些地方還需要改進。
這些反饋可能來自普通用戶,也可能是企業員工、質量檢測人員,或者是相關領域的專家。
智能體評估
想把概念驗證階段的智能體,變成可以真正投入生產使用的產品,一個強大的自動化評估框架必不可少。
評估智能體能力
在評估特定的智能體應用場景之前,可以先參考一些公開的基準測試和技術報告。
對很多基本能力,像模型性能、是否會產生幻覺、工具調用和規劃能力等,都有公開的基準測試。
例如,伯克利函數調用排行榜(BFCL)和τ-bench等基準測試,就能展示智能體的工具調用能力。
PlanBench基準測試,則專注於評估多個領域的規劃和推理能力。
工具調用和規劃只是智能體能力的一部分。智能體行為,會受到它所使用的LLM和其他組件的影響。
智能體和用戶的交互方式,在傳統的對話設計系統和工作流系統中也有跡可循,可以借鑒這些系統的評估指標和方法,來衡量智能體的表現。
AgentBench這樣的綜合智能體基準測試,會在多種場景下對智能體進行全面評估,測試從輸入到輸出的整體性能。

現在,很多公司和組織針對特定的應用場景,設立了專門的公開基準測試,如Adyen的數據分析排行榜DBAStep。
大多數基準測試報告中,都會討論智能體常見的失敗模式,這能為建立適合應用場景的評估框架提供思路。
除了參考公開評估,還要在各種不同的場景中測試智能體的行為。
可以模擬用戶和智能體的交互過程,觀察它的回應,不僅要評估最終給出的答案,還要關注它得出答案的過程,也就是行動軌跡。
軟件工程師可以把智能體評估和代碼的自動化測試聯繫起來。在代碼測試中,自動化測試能節省時間,還能讓開發者對軟件質量更有信心。
對於智能體來說,自動化評估同樣如此。
精心準備評估數據集非常重要,它要能準確反映智能體在實際應用中會遇到的情況,這點甚至比軟件測試中的數據集準備還要關鍵。
評估行動軌跡和工具使用
智能體在回覆用戶之前,通常會執行一系列操作。
比如,它可能會對比用戶輸入和會話歷史,消除某個術語的歧義;也可能查找政策文檔、搜索知識庫,或者調用API來保存票據。
這些操作中的每一個,都是其達成目標路徑上的一個步驟,也被稱為行動軌跡。
每次智能體執行任務時,都存在這樣一條行動軌跡。

對開發者來說,對比智能體實際採取的行動軌跡和預期的行動軌跡,非常有助於發現問題。
通過對比,能夠找出錯誤或效率低下的環節,提升智能體的性能。
不過,並非所有指標都適用於每種情況。
有些應用場景要求智能體必須嚴格按理想的行動軌跡執行,而有些場景則允許一定的靈活性和偏差。
這種評估方法也存在明顯的局限性,那就是需要有一個參考行動軌跡作為對比依據。
評估最終響應
最終響應評估,其實核心是:智能體有沒有實現既定目標?
可以根據自身的需求,製定自定義的成功標準來衡量這一點。
比如,評估一個零售聊天機器人能否準確回答產品相關問題;或者判斷一個研究智能體,能不能用恰當的語氣和風格,有效地總結研究成果。
為了實現評估過程的自動化,可以使用自動評分器。自動評分器本質上是一個LLM,它扮演著評判者的角色。
給定輸入提示和智能體生成的響應後,自動評分器會依據用戶預先設定的一組標準,對響應進行評估,以此模擬人類的評估過程。
不過要注意,由於這種評估可能沒有絕對的事實依據作為參照,精確地定義評估標準就顯得尤為關鍵。
人機協同評估
人機協同評估在一些需要主觀判斷、創造性解決問題的任務中,有很大的價值。
同時,它還能用來校準和檢驗自動化評估方法,看其是否真的有效,是否符合預期。
人機協同評估主要有以下優點:
- 主觀性:人類能夠評估一些難以量化的特質,像創造力、常識以及一些細微的差別,這些是機器較難把握的。
- 情境理解:人類評估者可以從更廣泛的角度,考慮智能體行動的背景以及產生的影響,做出更全面的判斷。
- 迭代改進:人類給出的反饋,能為優化智能體的行為和學習過程,提供非常有價值的見解,助力智能體不斷優化。
- 評估評估者:人類反饋還能為校準和優化自動評分器提供參考,讓自動評分器的評估更加準確。
多模態生成(如圖像、音頻、影片)的評估,則更為複雜,需要專門的評估方法和指標。
多智能體及其評估
如今,AI系統正朝著多智能體架構方向發生變革。
在這種架構中,多個具有專業能力的智能體相互協作,共同完成複雜的目標。
多智能體系統就好比是一個由專家組成的團隊,各自在擅長的領域發揮專長。
每個智能體都是一個獨立的個體,它們可能使用不同的LLM,承擔獨特的角色,並且有著不同的任務背景。
這些智能體通過相互溝通、協作,來實現共同的目標。
這和傳統的單智能體系統有很大區別,在單智能體系統中,所有任務都由一個LLM來處理。
理解多智能體架構
多智能體架構會把一個複雜問題拆解成不同的任務,交給專門的智能體去處理。
每個智能體都有明確的角色,它們之間動態互動,以此優化決策過程、提升知識檢索效率、確保任務順利執行。
這種架構實現了更有條理的推理方式、去中心化的問題解決模式,以及可擴展的任務自動化處理。
多智能體系統運用了模塊化、協作和分層的設計原則,構建出一個強大的AI生態系統。
智能體可以根據功能分為不同類型,例如:
- 規劃智能體:負責將高層次的目標拆解成一個個結構化的子任務,為後續工作製定詳細計劃。
- 檢索智能體:通過動態地從外部獲取相關數據,優化知識獲取過程,為其他智能體提供信息支持。
- 執行智能體:承擔具體的計算工作,生成響應內容,或者與 API 進行交互,實現各種實際操作。
- 評估智能體:對其他智能體生成的響應進行監控和驗證,確保符合任務目標,並且邏輯連貫、準確無誤。
通過這些組件的協同工作,多智能體架構不再局限於簡單的基於提示的交互方式,實現了自適應、可解釋且高效的AI驅動工作流程。
多智能體評估
多智能體系統評估是在單智能體系統評估的基礎上發展而來的。
智能體的成功指標在本質上並沒有改變,業務指標依然是核心關注點,其中包括目標和關鍵任務的完成情況,以及應用程序遙測指標,如延遲和錯誤率等。
通過對多智能體系統運行過程的跟蹤記錄,有助於在複雜的交互過程中發現問題、調試系統。
評估行動軌跡和評估最終響應這兩種方法,同樣適用於多智能體系統。
在多智能體系統中,一個完整的行動軌跡可能涉及多個甚至所有智能體的參與。

即便多個智能體共同協作完成一個任務,最終呈現給用戶的是一個單一的答案,這個答案可以單獨進行評估。
由於多智能體系統的任務流程通常更為複雜,步驟更多,所以可以深入到每個步驟進行細緻評估。行動軌跡評估是一種可行的、可擴展的評估方法。
智能體增強檢索生成
在智能體增強檢索生成(Agentic RAG)中,智能體會通過多次搜索來獲取所需信息。
在醫療保健領域,智能體增強檢索生成可以幫助醫生瀏覽複雜的醫學數據庫、研究論文和患者記錄,為他們提供全面、準確的信息。

Vertex AI Search是一個完全託管的、具有Google品質的搜索與檢索增強生成(RAG)服務提供商。涵蓋數據收集、處理、嵌入、索引 / 排序、生成、驗證和服務等流程。

Vertex AI Search擁有佈局解析器、向量排序API等組件,還提供RAG引擎,通過Python SDK進行編排,支持眾多其他組件。
對於希望構建自己搜索引擎的開發者,上述每個組件都作為獨立的API開放,RAG引擎能借助類似LlamaIndex的Python接口輕鬆編排整個流程。
企業中的智能體
企業開發並使用智能體,協助員工執行特定任務,或在後台自動化運行。
商業分析師借助AI生成的見解,能輕鬆挖掘行業趨勢,製作極具說服力的數據驅動型演示文稿;人力資源團隊可利用智能體優化員工入職流程。
軟件工程師依靠智能體,能主動發現並修復漏洞,更高效地進行開發迭代,加快部署進程。
營銷人員利用智能體,能深入分析營銷效果,優化內容推薦,靈活調整營銷活動以提升業績。
目前,有兩類智能體嶄露頭角:
助手型智能體:這類智能體與用戶進行交互,接收任務並執行,然後將結果反饋給用戶。
助手型智能體既可以是通用的,也可以專門針對特定領域或任務。
例如,幫助安排會議、分析數據、編寫代碼、撰寫營銷文稿、協助銷售人員把握銷售機會的智能體,甚至還有根據用戶要求對特定主題進行深入研究的智能體。
它們響應方式不同,有些能快速同步返回信息或完成任務,有些則需要較長時間運行(比如深度研究型智能體)。
自動化智能體:這類智能體在後台運行,監聽事件,監測系統或數據的變化,然後做出合理決策並採取行動。
這些行動包括操作後端系統、進行測試驗證、解決問題、通知相關員工等。
如今,知識工作者不再只是簡單地調用智能體執行任務並等待結果,他們正逐漸轉型為智能體的管理者。
為了便於管理,未來會出現新型用戶界面,實現對多智能體系統的編排、監控和管理,這些智能體既能執行任務,還能調用甚至創建其他智能體。
NotebookLM企業版
NotebookLM是一款研究和學習工具,旨在簡化複雜信息的理解與整合流程。
用戶可以上傳各種源材料,如文檔、筆記和其他相關文件,NotebookLM借助AI技術,助力用戶更深入地理解這些內容。
想像一下,在研究複雜主題時,NotebookLM能把零散的資料整合到一個有序的工作空間。
本質上,NotebookLM就像一個專屬研究助手,加速研究進程,幫助用戶從單純的信息收集邁向深度理解。
NotebookLM企業版將這些功能引入企業環境,簡化員工的數據交互方式,幫他們從中獲取有價值的見解。

例如,AI生成的音頻摘要功能,用戶可以通過「聽」研究內容來提升理解效率,促進知識吸收。
NotebookLM企業版融入了企業級的安全和隱私功能,嚴格保護敏感的公司數據,符合相關政策要求。
Agentspace空間企業版
Google Agentspace提供了一套由AI驅動的工具,旨在通過方便員工獲取信息,自動化複雜的智能體工作流程,提升企業生產力。
Agentspace有效解決了傳統知識管理系統的固有缺陷,通過整合分散的內容源,生成有依據且個性化的回覆、簡化業務流程,幫助員工高效獲取信息。
Agentspace企業版的架構基於多個核心原則構建。
安全性始終是Google Agentspace的首要關注點。
員工可以通過它獲取複雜問題的答案,還能統一訪問各類信息源,無論是文檔、郵件等非結構化數據,還是表格等結構化數據。
企業可根據自身需求配置一系列智能體,用於深度研究、創意生成與優化、數據分析等工作。

智能體空間企業版還支持創建定製化的AI智能體,滿足特定業務需求。
該平台能夠開發和部署具有上下文感知能力的智能體,幫助營銷、財務、法律、工程等各部門員工高效開展研究、快速生成內容,並實現重覆性任務(包括多步驟工作流程)的自動化。
定製智能體可連接內外部系統和數據,貼合公司業務領域和政策要求,甚至能基於專有業務數據訓練模型。
多智能體架構實際應用
為了說明多智能體概念在實際中的應用,來看一個專為汽車設計的綜合多智能體系統。

在這個系統中,多個專用智能體協同工作,為用戶帶來便捷、流暢的車內體驗。
- 對話式導航智能體:專門用於幫助用戶查找位置、推薦地點,並借助Google Places和Maps等API進行導航。
- 對話式媒體搜索智能體:專注於幫用戶查找和播放音樂、有聲讀物和播客。
- 消息撰寫智能體:幫助用戶在駕駛時起草、總結和發送消息或電子郵件。
- 汽車手冊智能體:借助檢索增強生成(RAG)系統,專門解答與汽車相關的問題。
- 通用知識智能體:解答關於世界、歷史、科學、文化及其他通用主題的事實性問題。
多智能體系統將複雜任務拆解為多個專業子任務。
在這種架構下,每個智能體專注於特定領域。這種專業化使整個系統更加高效。
導航智能體專注於定位和路線規劃;媒體搜索智能體精通音樂和播客資源查找;汽車手冊智能體擅長解決車輛相關問題。
系統會根據任務難度分配資源,簡單任務用低配置資源,複雜任務再調用高性能資源。

關鍵功能(如調節溫度、開窗等)由設備端智能體快速響應,而像餐廳推薦這類非緊急任務則交給雲端智能體。
這種設計還具備天然的容錯能力。網絡連接中斷時,設備端智能體仍能保證基本功能正常運行,比如溫度控制和基本媒體播放不受影響,只是暫時無法獲取餐廳推薦。
參考資料:
https://x.com/aaditsh/status/1919383594533072974
https://www.kaggle.com/whitepaper-agent-companion
本文來自微信公眾號「新智元」,作者:英智,36氪經授權發佈。