AI Agent,將如何打破大模型的應用邊界?

大語言模型的浪潮,推進了AlAgent落地

上個世紀50年代,阿倫·圖靈首次將”高度智能有機體”的概念提出。經過半個多世紀的發展,終於在2023年進入了一個新的高潮,並於今年進入了爆發階段。

自2022年11月30日chatGPT發佈以來,國內的模型廠商便開始了緊鑼密鼓的追趕之路,呈現出百花齊放的態勢。借助大語言模型,AI Agent智能化水平有了顯著提高,應用場景也日益豐富。

Al Agent是一種結合了大語言模型、規劃工具、記憶能力等的智能體,能夠像企業員工一樣,使用企業內部的知識和工具完成任務。其表現出的諸如善於處理複雜任務、替代重覆性工作、助力辦公自動化等巨大潛力,將重塑企業經營全價值鏈。

表:中國AI Agent市場規模(單位:億人民幣)

來源:頭豹研究院,虎嗅智庫來源:頭豹研究院,虎嗅智庫

Al Agent作為大模型在各行各業應用落地的重要抓手,目前已發展到哪一步了、在哪些場景下有了落地實踐、未來一年內又將有何變化、企業對此可以做哪些準備,是行業重點關心的問題。

本篇洞察文從Agent核心技術、Agent價值、應用場景與典型案例等多個維度,對AI Agent的現狀進行深入探討和總結。

2024年度大鯨榜已經啟動,尋找在AIGC、AI Agent、工業大模型等領域取得顯著成果、實現深度應用的企業。

對外徵集入口即將開放,添加大鯨助理(VX:17710850103)提前報名,不錯過任何評選進展。

Agent本質上是要突破語言模型的邊界

在瞭解AI Agent之前,需要深刻瞭解大模型的真實能力。

在國內當前階段,大模型的能力已經實現了顯著提升,眾多場景下已成功投入生產應用。然而,儘管初期承載著高期望,實際應用的場景卻相對基礎且單一,主要集中在模型生成領域,如營銷文案、客服對話、寫作輔助等。這些應用雖有其價值,但相較於企業核心的生產與業務流程,其關聯度和影響力仍顯不足。同時,這些應用的產出質量也有待提高,限制了其更深層次的應用和推廣。

圖:大模型在企業中落地時存在三個主要矛盾

來源:來也科技,虎嗅智庫來源:來也科技,虎嗅智庫

結合具體場景來看下大模型在企業實際業務落地中的問題:

第一類是模型生成類應用。此類應用是目前大模型最常見的應用場景,它們利用模型的文本生成能力,快速產生各類內容。然而,這些內容在創意性、專業性和準確性上往往難以達到企業級的標準,導致在實際業務中的應用效果有限。

其次,大模型在客服領域的應用也頗為廣泛,能夠處理基本的用戶諮詢和問題解答。然而,面對複雜或專業領域的問題時,模型的回答質量和準確性往往難以保證,影響了用戶體驗。

在寫作場景中,大模型能夠提供一定的創作靈感和文本框架,但缺乏深度思考和個性化定製能力,難以滿足高要求的寫作任務。

那麼,大模型為何難以完成企業的「預期目標」呢?這要從大模型本身的能力說起。

大模型,尤其是基於Transformer結構的語言模型,其核心是通過分析大量文本數據來學習詞彙之間的概率關係,從而預測下一個最可能的詞。這種方式雖然高效且在某些任務上表現出色,但其本質上是線性的、直接的缺乏人類思維中的反思和推理過程。這種特性限制了模型在處理需要複雜邏輯和推理能力的任務時的表現。

當前大模型雖然在處理通用任務時表現出色,但在面對特定行業或領域的專業問題時,其泛化能力顯得捉襟見肘。這限制了模型在更多複雜場景下的應用。

模型訓練依賴於大量數據,但現實中高質量、多樣化的數據往往難以獲取。這導致模型在訓練過程中可能存在偏差,影響其在實際應用中的表現。

綜上,推理能力邊界、模型泛化能力不足、數據質量與多樣性問題是當下大模型面臨的核心挑戰。其中,推理能力邊界的問題亟待解決。

那麼,提升大模型推理能力的方法有哪些?虎嗅智庫通過調研總結,認為有如下幾種路徑:

Agent,就是為了增強大模型深入思考的能力

Agent作為智能代理,其核心理念是讓機器能夠像人一樣進行多輪對話、思考和決策。在大模型的背景下,引入Agent的概念意味著通過以下方式提升模型的能力

1)多輪對話管理的能力使模型能夠理解和響應多輪對話中的上下文信息,從而進行更深入、更連貫的交流。

2)主動詢問與澄清的能力:當模型遇到不確定或模糊的信息時,能夠主動提出問題或請求澄清,以提高其處理複雜問題的能力。

3)策略性決策的能力:賦予模型在多個可行方案中進行選擇的能力,以更靈活地應對不同場景和需求。

總體來看,當下AI Agent基本上具備了模仿人類工作流程、完成部分複雜任務的能力。

在模仿人類工作流程這一部分,Agentwork的核心在於讓語言模型模仿人類在從事特定工作時的sop(標準操作程序)或workflow(工作流程)。這種模仿使得模型能夠更自然地處理多輪對話、理解上下文,並在需要時進行反思和推理,從而更接近於人類的工作方式。而通過學習和模擬不同領域的工作流程,模型可以更加靈活地應對各種挑戰和變化,從而增強其泛化性和適應性。

通過將Agent引入語言模型,可以顯著提升模型在處理複雜任務時的能力。Agent能夠協調和管理多個子任務,確保任務之間的邏輯連貫性和高效執行。這種能力對於需要多步驟、多輪次交互的任務尤為重要。

需要注意的是,根據自主程度,AI Agent可分為自主智能體和非自主智能體。自主智能體具備任務探索能力,但目前主要處於學術研究階段;非自主智能體則更多地作為既有業務邏輯的執行單元,在企業中逐漸落地應用。

綜上所述,通過引入Agent概念和相關技術,我們可以期待大模型在未來能夠更接近人類智能水平,為更多領域帶來創新和應用價值。

Al Agent目前落地在哪些場景?

接下來,我們結合實際案例進一步闡釋,AIAgent在企業業務場景里的應用。

文案生成及寫作:AI Agent可以還原人類專家的工作過程,直接交付服務結果。所以諸如報告寫作、研報、甚至方案,Agent也能較好地完成。

例如在某方案生成流程中,Agent成為了核心驅動力通過API接口實時傳入相關信息,Agent接收到相關信息後,可迅速啟動其內置的分析與推理機制,結合廣泛的數據資源與深度學習模型,自動生成高質量的競賽方案,從而大幅縮短製作時間。

文檔審核場景:對於企業來說,每天要花大量時間處理及反復確認各類重要文檔,包括採購合約、銷售合約、採購訂單、客戶訂單、運輸憑證、發票等。存在1文檔數量大、種類多;2)審核規則複雜、多變;3)流程長、協作多;4)語種多、跨時區等難點,同時也是一項容錯率低的工作。

AI Agent在此類場景下,能極大改善文檔審核的工作方式。包括1)業務人員通過自然語言描述,即可配置文檔審核助手的審核字段和規則;2)文檔審核助手可7*24小時待命,主動審核並將結果反饋,提升響應效率;3)每個審核點可一鍵定位到原文,實現人機協同和任務管理;4)益於企業統一納管,加速內部流程,提高合規性。

智能簡曆篩查(招聘場景):毫無疑問,越是統一標準和重覆的工作,越是人力期待用Al來解決的。在招聘環節里常見的職位發佈、簡曆投遞諮詢、簡曆篩選、面試考核、面試評價、offer發放,AI Agent可以發揮較大價值。

表:Agent的核心能力與應用價值

來源:未來式智能,虎嗅智庫

來源:未來式智能,虎嗅智庫

例如,摒棄傳統語料庫模型,通過上傳公司資料和招聘資料客服機器人可自主學習知識內容,精準識別語義,理解問題從而讓回答更精準。同樣的,語義理解,也可以評估海量簡曆(這也包括企業歷史積累的大量建立)輔助HR完成簡曆篩選工作,提升後續面試通過率。

大模型的能力邊界,也令Al Agent能執行的任務較為局限

回到文章前面提到的觀點,引入Agent是提升語言模型能力、突破其能力邊界的有效途徑之一。

但從實際應用進展來看上,兩者是相互作用、相互牽製的,Al Agent用場景需要充分理解模型能力邊界,隨著模型能力提升會不斷拓展應用邊界。現階段來說,AI Agent應聚焦在高價值、可落地的場景上。

總結:AI Agent通過海量文本數據學習,提升了知識的廣度和深度,廠商通過自有行業數據訓練,進一步增強了模型在垂直領域的深度。從主流廠商產品上來看,AI Agent在特定模塊化功能、以及人工參與性強的功能上表現良好,但在全自動化和複雜推理任務上仍需改進。

優勢:AIAgent在內容生成(包括文本、代碼、多模態數據)、非結構化數據處理等方面表現出色,尤其是在文本生成和文檔理解方面,能力顯著提升。

劣勢:當前AI Agent的發展仍受限於模型本身的推理能力和執行任務的能力。這種差距可能源於底層學習機制的不同,Al主要依賴數據反饋,而人類學習基於規則和經驗。推理能力在多步推理和複雜任務中仍有待提升,與人或實際應用需求相比存在較大差距;執行任務時,與真實世界的交互和業務流程的融合也存在挑戰。

關於虎嗅智庫

虎嗅智庫是一家聚焦企業數字化、AI創新實踐的新型研究服務機構,為產業智能化進程中的甲乙雙方,提供有洞察性的研究報告、案例評選、以及線上會議、線下活動與參訪服務,以支持企業高管在智能化、數字化方面的明智決策。

我們提供的核心價值

及時與優質的洞察,瞭解技術、瞭解行業、瞭解同行與對手;

為決策者技術與產品戰略決策、產業規劃、解決方案選型提供重要參考;幫助市場全面瞭解前沿科技及所影響產業的發展狀況,還有未來趨勢;

虎嗅智庫官網:hri.huxiu.com