AI智能體(一):介紹

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:2025年是AI智能體元年。本系利雲章旨在介紹AI智能體的概念、類型、原理、架構、開發等,為進一步瞭解AI智能體提供入門知識。本文為系利雲章的第一篇,文章來自編譯。

大語言模型(LLM)的出現讓人工智能有了巨大飛躍。這些強大系統革新了自然語言處理,但其真正潛力在於與「智能體能力」(自主推理、規劃和行動)的結合。這正是LLM智能體的用武之地,標誌著我們與AI交互以及利用AI的方式出現了範式轉變。

AI智能體技術棧AI智能體技術棧

本文旨在全面解析AI智能體,探討其特性、組成與類型,並分析其發展歷程、挑戰及未來方向。

我們先瞭解從LLM到AI智能體的演進之路。

1. 從LLM到AI智能體

LLM應用形態的演變是現代應用的最快開展之一。

1.1 從傳統聊天機器人到LLM驅動的聊天機器人

聊天機器人並非新事物,在生成式AI(gen AI)概念出現前,你可能已經跟網上的聊天機器人互動過了。

前生成式AI時代的傳統聊天機器人與當今AI驅動的對話智能體有本質區別,那種機器人一般是這麼:

基於規則的響應:

  • 傳統聊天機器人依賴基於規則的邏輯(「if-then」語句)。

  • 僅能處理預定義規則,無法應對複雜或模糊的查詢。

固定回覆:

  • 回覆為靜態且預先設定的。

  • 通過檢測特定關鍵詞或短語觸發。

  • 缺乏靈活性和對話深度。

人工接管:

  • 搞不定的查詢會提供一個「轉人工」按鈕。

  • 複雜問題仍需人工干預。

1.2 LLM驅動的聊天機器人的誕生

ChatGPT的發佈:2022年11月30日,OpenAI推出基於GPT-3.5的ChatGPT,成為首個主流LLM應用。

ChatGPT沿用了傳統的聊天界面,但背後是經海量互聯網語料訓練而成的先進LLM技術。

Transformer架構:GPT(Generative Pre-trained Transformer)的基礎是Google2017年提出的Transformer架構。

其通過自注意力機制分析輸入序列,深入理解上下文。

LLM的能力:與傳統聊天機器人不同,LLM能生成類人的、上下文相關且新穎的文本。

用例包括代碼生成、內容創作、客戶服務增強等。

局限性:

  • 個性化:難以在長對話中保持一致的個性化互動。

  • 幻覺問題:可能會生成事實錯誤但邏輯通順的回覆,因輸出依賴概率而非驗證過的知識。

應對措施:

  • 探索檢索增強生成(RAG)等技術,讓輸出基於可靠的外部數據。

  • 這些進展旨在減少錯誤並提升LLM系統的健壯性。

1.3 從LLM聊天機器人到RAG聊天機器人與AI智能體

RAG聊天機器人:檢索增強生成(RAG)將外部數據檢索與LLM能力結合,生成準確且情境化的回覆。

知識來源:

  • 非參數化知識:從互聯網或專有數據庫等外部來源檢索到的實時數據。

  • 參數化知識:LLM訓練中內嵌的知識。

優點:減少幻覺、提供最新信息並確保可驗證的回覆。

提示工程:通過上下文學習(單樣本、少樣本)、思維鏈(CoT)和ReAct(推理+行動)等技術,引導LLM推理與輸出生成,提升回覆質量。

AI智能體:AI智能體由配備了工具、多步規劃與推理能力的LLM演進而來。

工具使用:LLM可通過結構化模式(如JSON)分析任務並分配參數,調用編程定義好的函數或API。

環境:AI智能體在迭代執行環境中運行,支持基於反饋的動態決策與持續適配。

智能體系統:由自主智能體組成的計算架構,可整合多系統組件、做出決策並實現目標。

智能體式RAG:

  • 將LLM的推理、工具使用和規劃能力與語義信息檢索結合。

  • 構建動態系統,可分解任務、執行複雜查詢並利用工具解決問題。

從LLM聊天機器人到RAG聊天機器人再到AI智能體的轉型,標誌著向更智能、自適應且集成工具的系統轉變,這樣的系統能實時解決複雜問題。

2. 什麼是AI智能體?

AI智能體是通過傳感器感知環境、處理信息,並通過執行器作用於環境以實現特定目標的系統。可將其視為能觀察、思考與行動的數字實體,跟人類與環境的互動類似,不同的是以編程化和目標驅動的方式進行。

AI智能體的概念基於理性行為:智能體應採取實現目標可能性最大的行動。這種理性是AI智能體有別於簡單的響應程序的核心特徵。

2.1 AI智能體的特性

AI智能體具備以下關鍵特性:

自主性:無需人類干預,獨立決策。

發射性與主動性:響應環境變化並主動採取措施實現目標。

適應性:通過處理新信息與經驗進行學習與進化。

目標導向:以實現預定義目標或優化結果為方向。

交互性:與其他智能體或人類溝通協作。

持續性:持續運行,監控並響應動態環境。

3. AI智能體的核心組件

AI智能體的核心組件包括:

感知

推理

行動

知識庫

學習

通信接口

3.1 感知(傳感器)

傳感器令智能體感知環境,包括物理傳感器(攝像頭、馬克風)或數字輸入(數據流、用戶交互)。

3.2 推理(處理器)

智能體的「大腦」,處理傳感器信息並決定適當行動。

該組件實現智能體的決策算法並維護必要的內部狀態。

AI智能體利用基於規則的系統、專家系統和神經網絡等決策機制,做出明智決策並高效執行任務。

3.3 行動(執行器)

智能體影響環境或採取行動的手段。

可能是物理執行器(機械臂、揚聲器)或數字執行器(數據庫更新、顯示輸出)。

3.4 知識庫

智能體用於決策的信息庫,包含預編程知識與學習獲得的信息。

3.5 學習

使智能體通過數據與經驗學習,隨時間提升性能。

利用強化學習、監督學習與無監督學習等技術持續優化智能體表現。

3.6 通信接口

讓智能體可以與其他智能體、系統或人類交互。

在更大環境下的智能體在更大環境下的智能體

下文將詳述各組件及智能體的運作方式。

4. AI智能體如何與環境交互

交互週期通常叫做「感知-規劃-行動」循環。下面以自動駕駛汽車為例解析各階段:

4.1 感知階段

智能體的「感知」階段可看作:

傳感器 → 處理 → 狀態更新

  • 智能體通過傳感器接收輸入

  • 信息被處理與解析

  • 基於新信息更新當前狀態

4.2 決策階段

智能體的「思考」階段:

當前狀態 + 目標 → 評估選項 → 選擇最優行動

  • 智能體評估可能的行動

  • 權衡目標與約束

  • 基於可用信息選擇最優行動

4.3 行動階段

智能體的「執行」階段:

執行行動 → 觀察變化 → 啟動新循環

  • 通過執行器執行選定行動

  • 環境因此改變

  • 智能體通過傳感器觀察結果,啟動新循環

該循環持續重覆,每秒可能執行多次。其強大之處在於:

適應性:若發生意外,智能體可在下一個感知階段檢測出來並調整行動。

學習機會:智能體可對比預測結果與實際結果,優化未來決策。

目標導向行為:每一循環均推動智能體在約束下趨近目標。

為了從編程的角度去理解,以恒溫器為例對比三種複雜度:

1.簡單程序

 # Simple program

if temperature > desired_temperature:

   turn_on_cooling()

  • 僅遵循固定規則

  • 不考慮後果

  • 無學習或適應

2.響應式程序

# Responsive program

if temperature > desired_temperature:

   if time_of_day == “peak_hours”:

       turn_on_cooling_eco_mode()

   else:

       turn_on_cooling_normal()

  • 更複雜的規則

  • 一定情境感知

  • 仍無真正智能

3.AI智能體

class SmartThermostat:

    def perceive(self):

        current_temp = get_temperature()

        time = get_time()

        electricity_price = get_current_price()

        weather_forecast = get_forecast()

        user_preferences = get_preferences()

        return Environment(current_temp, time, electricity_price,

                         weather_forecast, user_preferences)

    def think(self, environment):

        possible_actions = [

            NoAction(),

            CoolNormal(),

            CoolEco(),

            PreCool(),

            WaitForOffPeak()

        ]

        # Evaluate each action’s expected outcome

        best_action = None

        best_utility = float(‘-inf’)

        for action in possible_actions:

            predicted_state = predict_future_state(environment, action)

            utility = calculate_utility(predicted_state)

            if utility > best_utility:

                best_action = action

                best_utility = utility

        return best_action

    def act(self, action):

        action.execute()

        monitor_results()

        update_learning_model()

  • 考慮多因素

  • 預測結果

  • 從經驗中學習

  • 優化長期目標

  • 平衡競爭性目標

這個循環對所有AI智能體均適用:

  • 聊天機器人感知文本輸入,考慮適當的回覆並生成文本。

  • 交易機器人感知市場數據,製定策略並執行交易。

  • 掃地機器人感知房間佈局與汙垢,決定進入清潔模式並執行移動。

5. AI智能體如何運作?

假設你的智能冰箱不僅能在牛奶喝完時補貨,還能根據你的瀏覽記錄建議改喝杏仁奶。這算貼心還是有點嚇人?你說了算!

這便是AI智能體的縮影。

AI智能體能理解人類語言(要歸功於LLM)、對信息進行推理、規劃行動,且無需持續的人工輸入即可執行任務。

它們解決複雜問題的能力遠勝簡單自動化工具。

與基礎腳本不同,AI智能體集成到軟件系統之中,支持與環境的複雜交互。

AI智能體與簡單自動化的區別

區別源於兩大能力:

  • 工具使用

  • 規劃

你或許見過ChatGPT連基礎的數學題也會做錯,那是因為它只靠訓練數據做出響應。

同理,若要求你計算85×65,作為人類,你需直接知道答案或使用計算器工具。

AI智能體同理,需賦予其工具訪問權限。

第二項能力是規劃。

以同一道數學題為例,你需懂得乘法或知道向計算器傳入參數85、65及乘法指令。

這便是規劃與推理。

以下是向AI智能體發起查詢時的流程:

AI智能體架構AI智能體架構

5.1 編排層(控制中心)

假設我要創建一個AI會議智能體,我會跟調度器說「我想為學生舉辦一場網絡研討會」。

該查詢將觸發AI智能體。

編排層編排層

查詢可以是文本、音頻、影片或圖像(數據最終會轉換為機器可處理的數值)。

查詢由編排層(即智能體控制中心)處理。

編排層的四大職責:

  • 記憶:維護完整交互記錄。

  • 狀態:存儲進程的當前狀態。

  • 推理:引導智能體的推理過程。

  • 規劃:確定步驟及下一步行動。

編排層會與模型(LLM)進行交互。

5.2 模型(大腦)

模型是整個智能體的中央決策者。

AI模型通常為大語言模型(LLM)。

AI智能體的模型AI智能體的模型

為了理解查詢、製定計劃並決定行動,模型採用以下推理與邏輯框架:

  • ReAct(推理+行動)

(推理+行動)確保審慎行動

  • 思維鏈

通過中間步驟推理

  • 思維樹

探索多路徑以尋找最優解

模型決定採取何種行動,並利用工具執行。

5.3 工具(手)

工具讓智能體得以跟外部世界交互。

如計算器、API、網絡搜索、外部數據庫等都屬於工具。

工具讓智能體能執行模型無法獨立完成的任務、獲取實時信息或處理現實世界的任務。

6. ✅ 何時使用智能體 / ⛔ 何時應避免使用

當你需要LLM來決定應用的工作流時,智能體是有用的,但常被濫用。關鍵在於:你是否真的需要靈活工作流來高效解決任務?如果預設工作流經常失效的話,就需更高的靈活性。

以衝浪旅行網站客服應用為例:

若用戶請求一般只有預設的兩類(基於用戶選擇),且兩類均有預設工作流:

用戶需旅行信息 ⇒ 提供搜索欄訪問知識庫

用戶需聯繫銷售 ⇒ 提供聯繫表單

如果這種確定型工作流已覆蓋所有查詢,直接編碼即可!這樣的系統是100%可靠的,避免了LLM的不可預測。

出於簡單性與健壯性的考慮,不建議優先採用智能體。

但如果工作流無法預先確定呢?

比方說,用戶問:「我原計劃週一到達,但忘帶護照可能延遲至週三。能否在週二上午帶上我和裝備去衝浪?費用需包含取消險。」

這個問題涉及到多種因素,預設標準無法覆蓋。

如果預設工作流經常覆蓋不到的話,則需更高靈活性。

此時智能體架構便可派上用場。

上述案例中,可構建多步驟智能體,訪問天氣API獲取預報、Google地圖API計算距離、員工空閑情況面板及知識庫RAG系統。

此前,計算機程序受限於預設工作流,試圖通過堆疊if/else處理複雜性,僅能處理「數字求和」或「尋找最短路徑」等範圍狹窄的任務。但預設流程通常無法匹配上現實世界的任務(如上述旅行案例)。智能體系統為程序開啟了處理現實任務的大門!

7. 應用領域

AI智能體是通用工具,可提升多領域生產力、效率與智能,正日益應用於日常場景與高影響領域。

8. 總結

AI智能體正改變我們與技術的互動方式,提供空前的自主性、智能與適應性。

從簡單反射型智能體到複雜學習系統,AI智能體正應用到多個行業來解決複雜問題並增強人類能力。但構建高效智能體面臨倫理關切、數據依賴與可擴展性等挑戰。

隨著AI技術的不斷進步,AI智能體潛力巨大。通過關注通用AI、人機協作與倫理考量,我們可創建高效執行任務、符合人類價值觀並為社會做出積極貢獻的智能體。

核心要點:

  • AI智能體是自主系統,通過感知、決策與行動實現目標。

  • 核心組件包括傳感器、執行器、決策引擎與學習模塊。

  • AI智能體應用於虛擬助手、自動駕駛汽車與醫療等領域。

通過理解基礎原理並緊跟進展,我們能利用AI智能體推動創新,創造出更美好的未來。

譯者:boxi。