真正的AI智能體時代即將到來，我們發現了幾點「苦澀的教訓」

機器之心編譯

編輯：江龍

最近一段時間，智能體（Agent）再次成為 AI 領域熱議的焦點。

2025 年 1 月，OpenAI 發佈了名為 DeepResearch 的 o3 模型變種，專門用於網頁和文檔搜索。得益於在瀏覽任務上的強化學習訓練，DeepResearch 具備了製定搜索策略、交叉引用信息來源、甚至利用中間反饋來處理深層次知識的能力。無獨有偶，Claude Sonnet 3.7 也成功地將同樣的強化學習方法應用於代碼領域，在複雜的編程任務中展現出超越了以往模型的組合應用效果。

正如摩根史丹利學者 William Brown 在演講中所說的：「LLM 智能體已能夠完成長時間、多步驟的任務了。」

這一進展不僅讓智能體的能力邁上了一個新台階，也引發了一個更深層的問題：LLM 智能體究竟是什麼？

2024 年 12 月，Anthropic 給出了一個全新的定義：「LLM 智能體是能夠動態指導自身流程和工具使用，並保持對任務完成方式控制的系統。」

與之相對，目前更為普遍的智能體實際上都是工作流系統（workflows），也就是通過預設的代碼和規則來協調 LLM 和工具的系統，例如最近備受關注的 Manus AI。

對於很多開發者而言，這些 LLM 智能體形成的工作流系統能否提高生產力、在多大程度上提高，才是關鍵問題。

在近期的測試中，開發者 Alexander Doria 發現了一些顯著的局限性，並寫成博客分享給大家。

博客地址：https://vintagedata.org/blog/posts/designing-llm-agents

「我在週末進行的所有測試都顯示出一個結果，即工作流系統存在著一些根本性局限，這些局限早在 AutoGPT 時代就已顯現，而在搜索領域表現得尤為明顯。」

不能有效製定計劃，經常中途卡殼；
不能記憶內容，無法處理超過 5-10 分鐘的任務；
無法長期有效執行任務，容易因連續的小錯誤最終徹底失敗。

作者以對大語言模型智能體「LLM 智能體」的定義為出發點。它基於大型實驗室的有限信息、開放研究生態系統中不斷湧現的複現成果，再結合一些個人推測，盡力對我們目前所瞭解的內容進行全面總結。

博客主要內容如下：

LLM 智能體的「苦澀教訓」

傳統的智能體與基礎大語言模型（base LLM）完全不同。

在傳統的強化學習研究中，智能體被置於受限的環境中，就像在迷宮里行走，智能體的每個動作都有物理或規則上的約束。即便如此，智能體仍保留了一定程度的自由，因為解決謎題或遊戲的方法往往不止一種。然而，每一步行動都必須以最終獲勝和獲得獎勵為目標進行計算。隨著時間的推移，高效的智能體會記住過去的行動，並逐步總結出模式和啟髮式策略來優化其行為。

這一過程被稱為「搜索」，智能體在迷宮中的探索行為與用戶在搜索引擎上的點擊模式如出一轍。搜索研究有著長達數十年的豐富歷史。例如，據傳為 OpenAI 新一代模型提供支持的 Q-star 算法，便是源自 1968 年的 A-Star 搜索算法。最近，Pufferlib 進行的寶可夢訓練實驗便是這一過程的絕佳例證。在實驗中，智能體被觀察到積極尋找最優路徑，失敗後不斷嘗試，通過反復試錯來優化策略。

然而，大語言模型的基礎邏輯恰恰相反：

智能體能記住環境，但基礎 LLM 不能，它們只能處理當前窗口內的信息；
智能體受現實條件限制，但基礎 LLM 生成的是概率最高的文本，隨時可能「跑題」；
智能體能規劃長期策略，基礎 LLM 卻只能做好單步推理，面對多步推理任務很快就會「超載」。

目前，大部分 LLM 智能體的做法是利用預定義的提示詞（prompt）和規則來引導模型。然而，這種方法註定會遇到「苦澀的教訓」（Bitter Lesson）。所謂教訓，是指人們往往傾向於將自己的知識硬編碼到系統中，短期內可能效果顯著，但長期來看卻嚴重限制了系統的發展潛力。真正的突破總是來自於搜索與學習能力的提升，而非人為規則的堆砌。這一教訓提醒我們，過度依賴規則設計可能會阻礙系統的自我優化和進化。

這就是為什麼類似 Manus AI 這類工作流系統無法順利地訂機票或教你徒手打虎 —— 它們本質上是被苦澀教訓咬了一口。靠提示詞和規則無法持續擴展，你必須從根本上設計能夠真正搜索、規劃、行動的系統。

強化學習 + 推理：LLM 智能體的「成功秘訣」

真正的 LLM 智能體，應該是什麼樣呢？這是一個複雜的問題，目前公開的信息很少。Anthropic、OpenAI、DeepMind 等少數實驗室掌握著關鍵知識。目前，我們只能從現有的研究中嘗試來推測：

1. 強化學習 RL：與傳統智能體類似，LLM 智能體也通過強化學習進行訓練。這裏的「迷宮」是所有可能的文本組合，而「出口」或「獎勵」則是最終的目標。驗證是否達成獎勵的過程被稱為「驗證器」——William Brown 新開發的驗證器庫正是為此而生。目前，驗證器主要用於形式化結果，如數學方程或編程代碼。但 Kalomaze 的研究表明，通過訓練專門分類器，也可為非嚴格可驗證的輸出構建驗證器。值得注意的是，語言模型在評估方面的表現優於生成，因此即使用小型 LLM-as-judge，也能顯著提升性能和獎勵設計。

2. 草稿模式（Drafts）：LLM 智能體的訓練依賴於生成草稿並同時評估。這一選擇並非顯而易見，因為早期研究主要集中在擴展搜索到整個 token 序列。計算限制和「推理」模型的突破推動了這一轉變。典型的訓練過程是讓模型生成邏輯序列，假設能得出正確答案的序列更可能是正確的。這可能導致反直覺的結果（如 DeepSeek R0 模型偶爾在英語和中文間切換）。然而，正如苦澀的教訓所示，強化學習只關注結果的有效性，甚至允許非正統或計劃外的捷徑。就像智能體在迷宮中尋找出路，語言模型必須通過純粹推理找到路徑 —— 沒有預定義提示，只有獎勵和獲取獎勵的方式。

3. 結構化輸出（rubric）：LLM 草稿通常被預定義為結構化數據部分，以便於獎勵驗證，並在一定程度上簡化整體推理過程。這是一種「評分標準工程」，既可以直接作為獎勵函數進行管理，也可以在大型實驗室的訓練設置中通過後訓練階段實現。

4. 多步訓練：LLM 智能體的訓練需要大量草稿和多步驟迭代。搜索領域的情況尤其如此：我們不會一次性評估搜索結果，而是評估模型獲取資源、處理結果、進一步獲取資源、調整計劃、回溯等能力。因此，DeepSeek 的 GRPO 結合 vllm 的文本生成成為當前首選方法。近期，我發佈了一個基於 William Brown 工作的代碼筆記本，成功在 Google Colab 提供的一塊 A100 GPU 上運行了 GRPO。計算需求的降低將是未來幾年強化學習和智能體設計普及的關鍵因素。

如何實現規模化？

以上是基礎構建模塊，但從這些到 OpenAI 的 DeepResearch 以及其他能夠處理長動作序列的智能體，還有一段距離。請允許我做一些推測。

目前的開放強化學習 / 推理研究主要集中在數學領域，因為我們擁有大量數學練習題，其中一些被 Common Crawl 收錄，並由 HuggingFace 通過分類器提取。然而，對於許多其他領域（尤其是搜索領域），我們缺乏相關數據，因為我們需要真實的動作序列：日誌、點擊記錄、行為模式等。我不久前曾在日誌分析領域工作過，模型（雖然仍在使用馬爾可夫鏈，但這個領域變化很快）仍然常在 20 世紀 90 年代末泄露的 AOL 數據上進行訓練。最近，至少有一個重要的公開數據集被引入：Wikipedia Clickstream，這是一組從一篇域奇百科文章到另一篇文章的匿名點擊軌跡數據。

但讓我問一個簡單的問題：這個數據集在 HuggingFace 上嗎？沒有。

事實上，HuggingFace 上幾乎沒有真正能增強規劃能力的「智能體數據」。整個領域仍然預設 LLM 模型需要通過自定義的規則系統進行編排。我甚至不確定 OpenAI 或 Anthropic 是否擁有足夠數量的此類數據。這至少是一個傳統科技公司佔據強勢地位的領域，而且沒有簡單的替代方案：你無法購買Google龐大的用戶搜索歷史數據。

目前能想到的解決方法是：通過模擬直接生成數據。傳統的強化學習模型並不依賴過往的實例。它們通過廣泛且反復的搜索來推斷出約束條件和過度策略。一旦應用到搜索領域，典型的強化學習方法與博弈中的強化學習並無太大差異：讓模型自由探索，每當它找到正確答案時就給予獎勵。這可能是一個漫長的探索過程。就好比你要找出一篇 20 世紀 60 年代被遺忘的蘇聯論文中記載的某個特定化學實驗。通過純粹的蠻力，也許強製執行一些語言查詢變化，模型最終偶然找到了正確結果。然後，它可以彙總導致這一結果的所有因素，從而使這一發現在未來更有可能實現。

我們來做一些簡單的計算。在典型的強化學習（RL）設計中，以 GRPO 為例，一次可以同時進行 16 個草稿的探索 —— 如果大型實驗室訓練的模型採用更高的草稿迭代次數，我也不會感到意外。每個草稿可能會依次瀏覽至少 100 個不同的頁面。這意味著一次就有 2000 個潛在查詢，而這僅僅只是一步。一個複雜的強化學習訓練序列可能需要進行數十萬步（這也是我認為當前訓練正處於中期階段的原因之一），並且要處理各種各樣的任務，尤其是針對像通用搜索能力這樣複雜的任務。如此算來，一個訓練序列就需要數億次的單獨連接 —— 在這個過程中，甚至可能會導致一些常用學術資源遭受類似分佈式拒絕服務（DDoS）攻擊的情況。這顯然並不理想，此時，網絡帶寬而非實際計算能力，成了主要的限制因素。

Game RL 面臨著類似的限制。這就是為什麼像 Pufferlib 這樣的 SOTA 方法會「從學習庫的角度將環境包裝成 Atari，而不會失去通用性」：RL 模型只需要看到它們所需使用的信息。當這種方法應用於搜索領域時，涉及到借助大型的 Common Crawl 數據轉儲，並將數據偽裝成通過 Web 處理的樣子，包含 url、api 調用和其他典型的 http 工件。而實際上，這些數據早已存儲在本地具有快速查詢能力的數據框中。

因此，我推測用於搜索的大語言模型強化學習智能體可以通過以下方式進行訓練：

利用固定的數據集創建一個大型的網絡搜索模擬環境，並持續將數據「轉換」後反饋給模型。通過這種方式，讓模型彷彿置身於真實的網絡搜索場景中進行學習。
使用某種形式的輕量級 SFT（如 DeepSeek 的 SFT-RL-SFT-RL 步驟）預冷模型，可能基於可以找到的任何現有搜索模式。其總體思路是預先規範模型的推理和輸出方式，從而加快實際強化學習訓練的速度，這類似於進行某種預定義的規則設計。
準備或多或少複雜的查詢，並將相關結果作為驗證器。我唯一的猜測是，它涉及一些複雜的合成管道，從現有資源進行反向翻譯，或者可能只是來自博士級註釋者的非常昂貴的註釋。
多步驟 RL 中的實際訓練。模型提交查詢、發起搜索、發送結果、瀏覽頁面或重新表述結果，所有這些都是多步驟完成的。從模型的角度來看，它就像是在瀏覽網頁，但所有這些數據交換都是由搜索模擬器在後台準備的。
也許一旦模型在搜索方面足夠好，就會重新進行另一輪 RL 和 SFT，這次更專注於編寫最終的綜合體。同樣，這可能涉及一個複雜的合成流程，其中輸出會轉變為輸入，例如將原始的長篇報告拆分成小塊，然後通過推理將它們重新組合起來。

告別對智能體進行提示

最終，我們得到了一個真正的智能體模型。它在實踐中會如何改變標準的工作流程或模型編排呢？僅僅是整體質量的提升，還是一種全新的範式轉變？

讓我們回顧一下 Anthropic 對智能體的定義：LLM 智能體「能夠動態地引導自身的處理流程和工具使用，自主掌控任務的完成方式」。我將再次以我較為熟悉的搜索場景為例進行說明。

一直以來，有很多人猜測檢索增強生成（RAG）會被具備長上下文處理能力的直接大語言模型應用所取代。但這種情況並未發生，原因有很多：長上下文處理計算成本高昂，在處理相對複雜的查詢時準確性欠佳，而且輸入信息的可追溯性較差。真正具備智能體能力的搜索大語言模型並不會取代 RAG。實際可能發生的情況是，在很大程度上實現 RAG 的自動化，並整合向量數據庫、路由和重排序等複雜操作。

一個典型的搜索過程可能會按照以下方式進行：

分析、分解查詢，並對用戶意圖做出一些假設。
如果查詢不清楚，可能會立即提示用戶返回（OpenAI DeepResearch 已經這樣做了）。
隨後，模型既可以開展通用搜索，也可以在合適的情況下，直接轉向更專業的研究資源。該模型已經記住了標準的應用程序編程接口（API）方案，能夠直接調用它們。為節省推理時間，模型可優先借助現有的網絡「模擬」版本，例如各類 API、網站地圖以及龐大的數據網絡生態系統。
搜索序列經過學習和訓練。該模型可以放棄錯誤的方向。或者它可以像專業知識工作者那樣走另一條路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的結果證明了這種能力：通過一系列內部推理，可以正確定位索引不良的來源。
搜索序列經過學習和訓練。模型能夠及時放棄錯誤的搜索方向，或者像專業知識工作者那樣另闢蹊徑。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的結果，就證明了這種能力：通過一系列的內部推理，模型能夠準確找到索引不佳的資源。
每一步操作和整個過程都會作為內部推理軌跡被記錄下來，從而在一定程度上為搜索結果提供可解釋性。

簡而言之，搜索過程是直接設計的。LLM 智能體充分利用現有的搜索基礎設施，並盡其所能以巧妙的方式開展搜索。目前不需要額外的數據準備。也不需要訓練用戶與生成式 AI 系統交互。正如 Tim Berners-Lee 十多年前強調的那樣，「思考 Agent 的一種方式是，如果用戶明確要求，程序在每個實例中都會執行用戶希望它執行的操作。」

現在，為了更清楚地瞭解實際投入生產的 LLM 智能體，你可以開始將這種方法遷移到其他領域。真正的網絡工程智能體同樣能夠直接與現有基礎設施交互，根據需求生成設備配置（如路由器、交換機、防火牆），分析網絡拓撲並提出優化建議或解析錯誤日誌以識別網絡問題的根本原因。真正的金融智能體將接受培訓，以提供競爭數據標準的無縫和準確翻譯（如 ISO 20022 到 MT103）。目前，僅靠一系列系統提示是無法完成上述任何一項任務的。

目前，唯一能夠開發真正 LLM 智能體的只有大型實驗室。它們掌握著所有優勢：專業技術、擁有部分數據（或者至少掌握合成數據的方法）以及將它們的模型轉化為產品的總體願景。我不確定這種技術集中是否是一件好事，儘管資金生態系統不願將真正的模型訓練視為長期顛覆和價值創造的實際來源，這在很大程度上助長了這種集中化現象。

我一般不喜歡誇大其詞。然而，鑒於 LLM 智能體具有巨大的顛覆潛力和價值獲取能力，我堅信讓 LLM 智能體的訓練和部署走向大眾化已刻不容緩。因此，開放驗證器、GRPO 訓練樣本，以及可能會很快出現的複雜合成管道和模擬器。

2025 年會是智能體元年嗎？有可能。讓我們拭目以待。

參考內容：

https://vintagedata.org/blog/posts/designing-llm-agents

https://x.com/dotey/status/1900179777635356827