AI智能體(一):介紹
神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:2025年是AI智能體元年。本系利雲章旨在介紹AI智能體的概念、類型、原理、架構、開發等,為進一步瞭解AI智能體提供入門知識。本文為系利雲章的第一篇,文章來自編譯。
大語言模型(LLM)的出現讓人工智能有了巨大飛躍。這些強大系統革新了自然語言處理,但其真正潛力在於與「智能體能力」(自主推理、規劃和行動)的結合。這正是LLM智能體的用武之地,標誌著我們與AI交互以及利用AI的方式出現了範式轉變。

本文旨在全面解析AI智能體,探討其特性、組成與類型,並分析其發展歷程、挑戰及未來方向。
我們先瞭解從LLM到AI智能體的演進之路。
1. 從LLM到AI智能體
LLM應用形態的演變是現代應用的最快開展之一。

1.1 從傳統聊天機器人到LLM驅動的聊天機器人
聊天機器人並非新事物,在生成式AI(gen AI)概念出現前,你可能已經跟網上的聊天機器人互動過了。
前生成式AI時代的傳統聊天機器人與當今AI驅動的對話智能體有本質區別,那種機器人一般是這麼:
基於規則的響應:
-
傳統聊天機器人依賴基於規則的邏輯(「if-then」語句)。
-
僅能處理預定義規則,無法應對複雜或模糊的查詢。
固定回覆:
-
回覆為靜態且預先設定的。
-
通過檢測特定關鍵詞或短語觸發。
-
缺乏靈活性和對話深度。
人工接管:
-
搞不定的查詢會提供一個「轉人工」按鈕。
-
複雜問題仍需人工干預。

1.2 LLM驅動的聊天機器人的誕生
ChatGPT的發佈:2022年11月30日,OpenAI推出基於GPT-3.5的ChatGPT,成為首個主流LLM應用。
ChatGPT沿用了傳統的聊天界面,但背後是經海量互聯網語料訓練而成的先進LLM技術。
Transformer架構:GPT(Generative Pre-trained Transformer)的基礎是Google2017年提出的Transformer架構。
其通過自注意力機制分析輸入序列,深入理解上下文。
LLM的能力:與傳統聊天機器人不同,LLM能生成類人的、上下文相關且新穎的文本。
用例包括代碼生成、內容創作、客戶服務增強等。
局限性:
-
個性化:難以在長對話中保持一致的個性化互動。
-
幻覺問題:可能會生成事實錯誤但邏輯通順的回覆,因輸出依賴概率而非驗證過的知識。
應對措施:
-
探索檢索增強生成(RAG)等技術,讓輸出基於可靠的外部數據。
-
這些進展旨在減少錯誤並提升LLM系統的健壯性。
1.3 從LLM聊天機器人到RAG聊天機器人與AI智能體
RAG聊天機器人:檢索增強生成(RAG)將外部數據檢索與LLM能力結合,生成準確且情境化的回覆。
知識來源:
-
非參數化知識:從互聯網或專有數據庫等外部來源檢索到的實時數據。
-
參數化知識:LLM訓練中內嵌的知識。
優點:減少幻覺、提供最新信息並確保可驗證的回覆。
提示工程:通過上下文學習(單樣本、少樣本)、思維鏈(CoT)和ReAct(推理+行動)等技術,引導LLM推理與輸出生成,提升回覆質量。

AI智能體:AI智能體由配備了工具、多步規劃與推理能力的LLM演進而來。
工具使用:LLM可通過結構化模式(如JSON)分析任務並分配參數,調用編程定義好的函數或API。
環境:AI智能體在迭代執行環境中運行,支持基於反饋的動態決策與持續適配。
智能體系統:由自主智能體組成的計算架構,可整合多系統組件、做出決策並實現目標。
智能體式RAG:
-
將LLM的推理、工具使用和規劃能力與語義信息檢索結合。
-
構建動態系統,可分解任務、執行複雜查詢並利用工具解決問題。

從LLM聊天機器人到RAG聊天機器人再到AI智能體的轉型,標誌著向更智能、自適應且集成工具的系統轉變,這樣的系統能實時解決複雜問題。
2. 什麼是AI智能體?
AI智能體是通過傳感器感知環境、處理信息,並通過執行器作用於環境以實現特定目標的系統。可將其視為能觀察、思考與行動的數字實體,跟人類與環境的互動類似,不同的是以編程化和目標驅動的方式進行。
AI智能體的概念基於理性行為:智能體應採取實現目標可能性最大的行動。這種理性是AI智能體有別於簡單的響應程序的核心特徵。

2.1 AI智能體的特性
AI智能體具備以下關鍵特性:
自主性:無需人類干預,獨立決策。
發射性與主動性:響應環境變化並主動採取措施實現目標。
適應性:通過處理新信息與經驗進行學習與進化。
目標導向:以實現預定義目標或優化結果為方向。
交互性:與其他智能體或人類溝通協作。
持續性:持續運行,監控並響應動態環境。
3. AI智能體的核心組件
AI智能體的核心組件包括:
感知
推理
行動
知識庫
學習
通信接口

3.1 感知(傳感器)
傳感器令智能體感知環境,包括物理傳感器(攝像頭、馬克風)或數字輸入(數據流、用戶交互)。
3.2 推理(處理器)
智能體的「大腦」,處理傳感器信息並決定適當行動。
該組件實現智能體的決策算法並維護必要的內部狀態。
AI智能體利用基於規則的系統、專家系統和神經網絡等決策機制,做出明智決策並高效執行任務。
3.3 行動(執行器)
智能體影響環境或採取行動的手段。
可能是物理執行器(機械臂、揚聲器)或數字執行器(數據庫更新、顯示輸出)。
3.4 知識庫
智能體用於決策的信息庫,包含預編程知識與學習獲得的信息。
3.5 學習
使智能體通過數據與經驗學習,隨時間提升性能。
利用強化學習、監督學習與無監督學習等技術持續優化智能體表現。
3.6 通信接口
讓智能體可以與其他智能體、系統或人類交互。

下文將詳述各組件及智能體的運作方式。
4. AI智能體如何與環境交互
交互週期通常叫做「感知-規劃-行動」循環。下面以自動駕駛汽車為例解析各階段:
4.1 感知階段
智能體的「感知」階段可看作:
傳感器 → 處理 → 狀態更新
-
智能體通過傳感器接收輸入
-
信息被處理與解析
-
基於新信息更新當前狀態
4.2 決策階段
智能體的「思考」階段:
當前狀態 + 目標 → 評估選項 → 選擇最優行動
-
智能體評估可能的行動
-
權衡目標與約束
-
基於可用信息選擇最優行動
4.3 行動階段
智能體的「執行」階段:
執行行動 → 觀察變化 → 啟動新循環
-
通過執行器執行選定行動
-
環境因此改變
-
智能體通過傳感器觀察結果,啟動新循環
該循環持續重覆,每秒可能執行多次。其強大之處在於:
適應性:若發生意外,智能體可在下一個感知階段檢測出來並調整行動。
學習機會:智能體可對比預測結果與實際結果,優化未來決策。
目標導向行為:每一循環均推動智能體在約束下趨近目標。
為了從編程的角度去理解,以恒溫器為例對比三種複雜度:
1.簡單程序
# Simple program
if temperature > desired_temperature:
turn_on_cooling()
-
僅遵循固定規則
-
不考慮後果
-
無學習或適應
2.響應式程序
# Responsive program
if temperature > desired_temperature:
if time_of_day == “peak_hours”:
turn_on_cooling_eco_mode()
else:
turn_on_cooling_normal()
-
更複雜的規則
-
一定情境感知
-
仍無真正智能
3.AI智能體
class SmartThermostat:
def perceive(self):
current_temp = get_temperature()
time = get_time()
electricity_price = get_current_price()
weather_forecast = get_forecast()
user_preferences = get_preferences()
return Environment(current_temp, time, electricity_price,
weather_forecast, user_preferences)
def think(self, environment):
possible_actions = [
NoAction(),
CoolNormal(),
CoolEco(),
PreCool(),
WaitForOffPeak()
]
# Evaluate each action’s expected outcome
best_action = None
best_utility = float(‘-inf’)
for action in possible_actions:
predicted_state = predict_future_state(environment, action)
utility = calculate_utility(predicted_state)
if utility > best_utility:
best_action = action
best_utility = utility
return best_action
def act(self, action):
action.execute()
monitor_results()
update_learning_model()
-
考慮多因素
-
預測結果
-
從經驗中學習
-
優化長期目標
-
平衡競爭性目標
這個循環對所有AI智能體均適用:
-
聊天機器人感知文本輸入,考慮適當的回覆並生成文本。
-
交易機器人感知市場數據,製定策略並執行交易。
-
掃地機器人感知房間佈局與汙垢,決定進入清潔模式並執行移動。
5. AI智能體如何運作?
假設你的智能冰箱不僅能在牛奶喝完時補貨,還能根據你的瀏覽記錄建議改喝杏仁奶。這算貼心還是有點嚇人?你說了算!
這便是AI智能體的縮影。
AI智能體能理解人類語言(要歸功於LLM)、對信息進行推理、規劃行動,且無需持續的人工輸入即可執行任務。
它們解決複雜問題的能力遠勝簡單自動化工具。
與基礎腳本不同,AI智能體集成到軟件系統之中,支持與環境的複雜交互。
AI智能體與簡單自動化的區別
區別源於兩大能力:
-
工具使用
-
規劃
你或許見過ChatGPT連基礎的數學題也會做錯,那是因為它只靠訓練數據做出響應。
同理,若要求你計算85×65,作為人類,你需直接知道答案或使用計算器工具。
AI智能體同理,需賦予其工具訪問權限。
第二項能力是規劃。
以同一道數學題為例,你需懂得乘法或知道向計算器傳入參數85、65及乘法指令。
這便是規劃與推理。
以下是向AI智能體發起查詢時的流程:

5.1 編排層(控制中心)
假設我要創建一個AI會議智能體,我會跟調度器說「我想為學生舉辦一場網絡研討會」。
該查詢將觸發AI智能體。

查詢可以是文本、音頻、影片或圖像(數據最終會轉換為機器可處理的數值)。
查詢由編排層(即智能體控制中心)處理。
編排層的四大職責:
-
記憶:維護完整交互記錄。
-
狀態:存儲進程的當前狀態。
-
推理:引導智能體的推理過程。
-
規劃:確定步驟及下一步行動。

編排層會與模型(LLM)進行交互。
5.2 模型(大腦)
模型是整個智能體的中央決策者。
AI模型通常為大語言模型(LLM)。

為了理解查詢、製定計劃並決定行動,模型採用以下推理與邏輯框架:
-
ReAct(推理+行動)
(推理+行動)確保審慎行動
-
思維鏈
通過中間步驟推理
-
思維樹
探索多路徑以尋找最優解
模型決定採取何種行動,並利用工具執行。
5.3 工具(手)
工具讓智能體得以跟外部世界交互。
如計算器、API、網絡搜索、外部數據庫等都屬於工具。

工具讓智能體能執行模型無法獨立完成的任務、獲取實時信息或處理現實世界的任務。
6. 何時使用智能體 /
何時應避免使用
當你需要LLM來決定應用的工作流時,智能體是有用的,但常被濫用。關鍵在於:你是否真的需要靈活工作流來高效解決任務?如果預設工作流經常失效的話,就需更高的靈活性。
以衝浪旅行網站客服應用為例:
若用戶請求一般只有預設的兩類(基於用戶選擇),且兩類均有預設工作流:
用戶需旅行信息 ⇒ 提供搜索欄訪問知識庫
用戶需聯繫銷售 ⇒ 提供聯繫表單
如果這種確定型工作流已覆蓋所有查詢,直接編碼即可!這樣的系統是100%可靠的,避免了LLM的不可預測。
出於簡單性與健壯性的考慮,不建議優先採用智能體。
但如果工作流無法預先確定呢?
比方說,用戶問:「我原計劃週一到達,但忘帶護照可能延遲至週三。能否在週二上午帶上我和裝備去衝浪?費用需包含取消險。」
這個問題涉及到多種因素,預設標準無法覆蓋。
如果預設工作流經常覆蓋不到的話,則需更高靈活性。
此時智能體架構便可派上用場。
上述案例中,可構建多步驟智能體,訪問天氣API獲取預報、Google地圖API計算距離、員工空閑情況面板及知識庫RAG系統。
此前,計算機程序受限於預設工作流,試圖通過堆疊if/else處理複雜性,僅能處理「數字求和」或「尋找最短路徑」等範圍狹窄的任務。但預設流程通常無法匹配上現實世界的任務(如上述旅行案例)。智能體系統為程序開啟了處理現實任務的大門!
7. 應用領域
AI智能體是通用工具,可提升多領域生產力、效率與智能,正日益應用於日常場景與高影響領域。

8. 總結
AI智能體正改變我們與技術的互動方式,提供空前的自主性、智能與適應性。
從簡單反射型智能體到複雜學習系統,AI智能體正應用到多個行業來解決複雜問題並增強人類能力。但構建高效智能體面臨倫理關切、數據依賴與可擴展性等挑戰。
隨著AI技術的不斷進步,AI智能體潛力巨大。通過關注通用AI、人機協作與倫理考量,我們可創建高效執行任務、符合人類價值觀並為社會做出積極貢獻的智能體。
核心要點:
-
AI智能體是自主系統,通過感知、決策與行動實現目標。
-
核心組件包括傳感器、執行器、決策引擎與學習模塊。
-
AI智能體應用於虛擬助手、自動駕駛汽車與醫療等領域。
通過理解基礎原理並緊跟進展,我們能利用AI智能體推動創新,創造出更美好的未來。
譯者:boxi。