科技

AI智能體（一）：介紹

03月26日 07:06 新浪網 tech-auto-hilite

神譯局是36氪旗下編譯團隊，關注科技、商業、職場、生活等領域，重點介紹國外的新技術、新觀點、新風向。

編者按：2025年是AI智能體元年。本系利雲章旨在介紹AI智能體的概念、類型、原理、架構、開發等，為進一步瞭解AI智能體提供入門知識。本文為系利雲章的第一篇，文章來自編譯。

大語言模型（LLM）的出現讓人工智能有了巨大飛躍。這些強大系統革新了自然語言處理，但其真正潛力在於與「智能體能力」（自主推理、規劃和行動）的結合。這正是LLM智能體的用武之地，標誌著我們與AI交互以及利用AI的方式出現了範式轉變。

AI智能體技術棧

本文旨在全面解析AI智能體，探討其特性、組成與類型，並分析其發展歷程、挑戰及未來方向。

我們先瞭解從LLM到AI智能體的演進之路。

1. 從LLM到AI智能體

LLM應用形態的演變是現代應用的最快開展之一。

1.1 從傳統聊天機器人到LLM驅動的聊天機器人

聊天機器人並非新事物，在生成式AI（gen AI）概念出現前，你可能已經跟網上的聊天機器人互動過了。

前生成式AI時代的傳統聊天機器人與當今AI驅動的對話智能體有本質區別，那種機器人一般是這麼：

基於規則的響應：

傳統聊天機器人依賴基於規則的邏輯（「if-then」語句）。
僅能處理預定義規則，無法應對複雜或模糊的查詢。

固定回覆：

回覆為靜態且預先設定的。
通過檢測特定關鍵詞或短語觸發。
缺乏靈活性和對話深度。

人工接管：

搞不定的查詢會提供一個「轉人工」按鈕。
複雜問題仍需人工干預。

1.2 LLM驅動的聊天機器人的誕生

ChatGPT的發佈：2022年11月30日，OpenAI推出基於GPT-3.5的ChatGPT，成為首個主流LLM應用。

ChatGPT沿用了傳統的聊天界面，但背後是經海量互聯網語料訓練而成的先進LLM技術。

Transformer架構：GPT（Generative Pre-trained Transformer）的基礎是Google2017年提出的Transformer架構。

其通過自注意力機制分析輸入序列，深入理解上下文。

LLM的能力：與傳統聊天機器人不同，LLM能生成類人的、上下文相關且新穎的文本。

用例包括代碼生成、內容創作、客戶服務增強等。

局限性：

個性化：難以在長對話中保持一致的個性化互動。
幻覺問題：可能會生成事實錯誤但邏輯通順的回覆，因輸出依賴概率而非驗證過的知識。

應對措施：

探索檢索增強生成（RAG）等技術，讓輸出基於可靠的外部數據。
這些進展旨在減少錯誤並提升LLM系統的健壯性。

1.3 從LLM聊天機器人到RAG聊天機器人與AI智能體

RAG聊天機器人：檢索增強生成（RAG）將外部數據檢索與LLM能力結合，生成準確且情境化的回覆。

知識來源：

非參數化知識：從互聯網或專有數據庫等外部來源檢索到的實時數據。
參數化知識：LLM訓練中內嵌的知識。

優點：減少幻覺、提供最新信息並確保可驗證的回覆。

提示工程：通過上下文學習（單樣本、少樣本）、思維鏈（CoT）和ReAct（推理+行動）等技術，引導LLM推理與輸出生成，提升回覆質量。

AI智能體：AI智能體由配備了工具、多步規劃與推理能力的LLM演進而來。

工具使用：LLM可通過結構化模式（如JSON）分析任務並分配參數，調用編程定義好的函數或API。

環境：AI智能體在迭代執行環境中運行，支持基於反饋的動態決策與持續適配。

智能體系統：由自主智能體組成的計算架構，可整合多系統組件、做出決策並實現目標。

智能體式RAG：

將LLM的推理、工具使用和規劃能力與語義信息檢索結合。
構建動態系統，可分解任務、執行複雜查詢並利用工具解決問題。

從LLM聊天機器人到RAG聊天機器人再到AI智能體的轉型，標誌著向更智能、自適應且集成工具的系統轉變，這樣的系統能實時解決複雜問題。

2. 什麼是AI智能體？

AI智能體是通過傳感器感知環境、處理信息，並通過執行器作用於環境以實現特定目標的系統。可將其視為能觀察、思考與行動的數字實體，跟人類與環境的互動類似，不同的是以編程化和目標驅動的方式進行。

AI智能體的概念基於理性行為：智能體應採取實現目標可能性最大的行動。這種理性是AI智能體有別於簡單的響應程序的核心特徵。

2.1 AI智能體的特性

AI智能體具備以下關鍵特性：

自主性：無需人類干預，獨立決策。

發射性與主動性：響應環境變化並主動採取措施實現目標。

適應性：通過處理新信息與經驗進行學習與進化。

目標導向：以實現預定義目標或優化結果為方向。

交互性：與其他智能體或人類溝通協作。

持續性：持續運行，監控並響應動態環境。

3. AI智能體的核心組件

AI智能體的核心組件包括：

感知

推理

行動

知識庫

學習

通信接口

3.1 感知（傳感器）

傳感器令智能體感知環境，包括物理傳感器（攝像頭、馬克風）或數字輸入（數據流、用戶交互）。

3.2 推理（處理器）

智能體的「大腦」，處理傳感器信息並決定適當行動。

該組件實現智能體的決策算法並維護必要的內部狀態。

AI智能體利用基於規則的系統、專家系統和神經網絡等決策機制，做出明智決策並高效執行任務。

3.3 行動（執行器）

智能體影響環境或採取行動的手段。

可能是物理執行器（機械臂、揚聲器）或數字執行器（數據庫更新、顯示輸出）。

3.4 知識庫

智能體用於決策的信息庫，包含預編程知識與學習獲得的信息。

3.5 學習

使智能體通過數據與經驗學習，隨時間提升性能。

利用強化學習、監督學習與無監督學習等技術持續優化智能體表現。

3.6 通信接口

讓智能體可以與其他智能體、系統或人類交互。

在更大環境下的智能體

下文將詳述各組件及智能體的運作方式。

4. AI智能體如何與環境交互

交互週期通常叫做「感知-規劃-行動」循環。下面以自動駕駛汽車為例解析各階段：

4.1 感知階段

智能體的「感知」階段可看作：

傳感器 → 處理 → 狀態更新

智能體通過傳感器接收輸入
信息被處理與解析
基於新信息更新當前狀態

4.2 決策階段

智能體的「思考」階段：

當前狀態 + 目標 → 評估選項 → 選擇最優行動

智能體評估可能的行動
權衡目標與約束
基於可用信息選擇最優行動

4.3 行動階段

智能體的「執行」階段：

執行行動 → 觀察變化 → 啟動新循環

通過執行器執行選定行動
環境因此改變
智能體通過傳感器觀察結果，啟動新循環

該循環持續重覆，每秒可能執行多次。其強大之處在於：

適應性：若發生意外，智能體可在下一個感知階段檢測出來並調整行動。

學習機會：智能體可對比預測結果與實際結果，優化未來決策。

目標導向行為：每一循環均推動智能體在約束下趨近目標。

為了從編程的角度去理解，以恒溫器為例對比三種複雜度：

1.簡單程序

# Simple program

if temperature > desired_temperature:

turn_on_cooling()

僅遵循固定規則
不考慮後果
無學習或適應

2.響應式程序

# Responsive program

if temperature > desired_temperature:

if time_of_day == “peak_hours”:

turn_on_cooling_eco_mode()

else:

turn_on_cooling_normal()

更複雜的規則
一定情境感知
仍無真正智能

3.AI智能體

class SmartThermostat:

    def perceive(self):

        current_temp = get_temperature()

        time = get_time()

        electricity_price = get_current_price()

        weather_forecast = get_forecast()

        user_preferences = get_preferences()

        return Environment(current_temp, time, electricity_price,

                         weather_forecast, user_preferences)

    def think(self, environment):

        possible_actions = [

            NoAction(),

            CoolNormal(),

            CoolEco(),

            PreCool(),

            WaitForOffPeak()

        ]

        # Evaluate each action’s expected outcome

        best_action = None

        best_utility = float(‘-inf’)

        for action in possible_actions:

            predicted_state = predict_future_state(environment, action)

            utility = calculate_utility(predicted_state)

            if utility > best_utility:

                best_action = action

                best_utility = utility

        return best_action

    def act(self, action):

        action.execute()

        monitor_results()

        update_learning_model()