人工智能的過去和未來：從剛得諾獎的傑佛瑞·辛頓到AI Agent

10月8日，盧保物理學獎一經公佈，瞬間驚爆了世界。甚至獲獎人之一的傑佛瑞·E.辛頓（Geoffrey E. Hinton）本人，都大吃一驚。

「我大吃一驚，根本不知道發生了什麼，」當盧保委員會通過電話聯繫到辛頓時，他正在加州的一個廉價旅館里，那裡的網絡和手機信號都不好。

全世界震驚之餘，都在問這麼一個問題：究竟為什麼盧保物理學獎給了AI科學家？這就要從AI研究的源起說起。

01 引爆AI新浪潮的深度神經網絡

人工智能（AI）的由來可以追溯到20世紀50年代，而人類第一台通用電子計算機埃尼艾基（Electronic Numerical Integrator and Computer，ENIAC）於1945年誕生。當時，科學家們突發奇想，開始探索如何將人類的智能和思考方式運用到計算機中，以實現類似於人類智能的行為和思維。

這些早期的研究集中在推理、學習、規劃、自然語言處理等領域，並在此基礎上逐步建立起了AI的基礎理論。著名的圖靈測試是由人工智能之父艾倫·圖靈於1950年提出的一種測試，用於評估計算機是否能夠表現出與人類相同的智能水平。在圖靈測試中，一個人與計算機程序進行對話。如果這個人無法確定自己是在與另一個人還是計算機程序對話，那麼這個程序就通過了測試。

這個測試成為衡量人工智能是否能夠達到人類智能水平的標準。圖靈提出這個測試的目的是探討「機器思考」這一問題，他認為如果一台計算機能夠通過這個測試，那麼它就可以被認為具有了人類的智能水平。

隨著計算機技術的不斷髮展，圖靈測試逐漸成為人工智能領域的重要指標和研究方向。很多研究人員致力於開發能夠通過圖靈測試的計算機程序，以此來實現人工智能的夢想。

到了20世紀70年代，科學家們開始使用邏輯推理和規則來實現智能，這被稱為「符號主義AI」（Symbolic AI）。「符號主義AI」主要基於人類專家的知識，將這些知識表示成一系列的規則和公式，然後使用邏輯推理來解決問題。例如，人類專家可以提供一個疾病的症狀和治療方法的知識庫，計算機程序可以使用這些規則和公式來推斷出一個病人的病因和治療方案。然而，「符號主義AI」很難處理不完備或不確定的信息，需要明確的規則和公式來解決問題，所以無法處理一些複雜的現實問題。

20世紀80年代，AI進入了一個新的發展階段，即「連接主義AI」（Connectionist AI）。它的靈感來源於生物神經網絡（neural networks），通過建立大量的神經元之間的連接來模擬人類大腦的工作方式。「連接主義AI」的核心思想是學習，通過處理大量數據並自動調整神經網絡的權重和參數，來完成各種不同的任務，如圖像識別、語音識別、自然語言處理等。這種方法強調了從數據中學習和發現模式，而不再是依賴人類專家提供的規則和知識。

真正引爆AI新浪潮的關鍵節點是在2012年，由這次諾獎得主辛頓等人開發的AlexNet深度神經網絡，在ImageNet圖像識別挑戰賽上以遠超第二名的成績獲勝，將圖像識別錯誤率從當時的26%降至15%，引領了圖像識別領域的新一輪革命。

僅僅三年後，在2015年，AI就首次在圖像識別領域超越了人類。當時，一個名為ResNet的深度神經網絡在ImageNet挑戰賽中取得了比人類更高的圖像分類準確性，錯誤率僅為3.57%。自那時起，隨著更深層次和更高級別的神經網絡的出現，AI在圖像分類、目標檢測、人臉識別等方面的準確性不斷提高，逐漸在更多任務里超越了人類的表現，AI也因此被推廣到各個領域大放異彩，這裏就要講到我們眼中目前AI領域走向未來最重要的趨勢之一：AI Agent。

02 AI數字員工來了

長期以來，全球的研究人員一直在追求與人類相當、甚至超越人類水平的通用人工智能（Artificial General Intelligence，AGI）。其實早在20世紀50 年代，「智能」的概念就被擴展到了人工實體，這些人工智能實體通常被稱為——代理（Agent）。Agent這一概念起源於哲學，是指一種擁有慾望、信念、意圖以及採取行動能力的實體。在AI領域，這一術語被賦予了全新的含義——具有自主性、反應性、積極性和社交能力特徵的智能實體。AI Agent可以被理解為一個由AI技術加持的，有協調組織能力的數字員工，它變得更聰明了，可以感知周圍的環境，有邏輯和計劃地解決問題，並且能夠獨立地思考和完成任務。

隨著ChatGPT的誕生已過去近兩年，如今生成式人工智能應用已經不再局限於聊天。AI開始全方面地融入人類的生產、生活。其中最具代表性的技術便是AI Agent（智能體），例如輔助文檔辦公的Microsoft 365 Copilot、輔助編程的GitHub Copilot、輔助繪圖設計的Adobe Firefly等(Copilot即為副駕駛之意)。

各個領域的AI Agent應用百花齊放。在2024年 Snowflake 峰會開發者日上，人工智能領域的領軍人物吳恩達 (Andrew Ng) 發表了題為「AI 代理工作流及其推動 AI 進展的潛力 (How AI Agentic workflows could drive more Al progress than even the next generation of foundation models)」的演講，他指出：AI Agent工作流將在今年推動人工智能取得巨大進步，甚至可能超過下一代基礎模型。

相比ChatGPT 只能被動地回答問題，AI Agent僅需給定一個目標，它就能夠針對目標獨立思考並做出行動，根據給定任務詳細拆解出每一步的計劃步驟，依靠來自外界的反饋和自主思考，主動實現目標。隨著生成式人工智能基礎模型的不斷進步，AI Agent在其任務上的自動化程度也逐漸加深。因此，如果說目前的AI Agent還只能勝任「副駕駛」，那麼隨著其自主性的不斷進步，也許在不久的將來會誕生真正的AI「主駕駛」。

2024年，北京智源人工智能研究院、新加坡南洋理工大學和北京大學提出了通用計算機控制（General Computer Control, GCC）項目，目的是希望Agent能像人類一樣使用屏幕、鍵盤和鼠標來完成計算機上的所有任務。

過去，人工智能研究主要集中在遊戲場景中，而GCC則為通用人工智能研究提供了更廣泛的應用場景。這一項目的核心是通用計算機控制Agent框架Cradle，它使Agent能夠直接控制鍵盤、鼠標，並與任何軟件交互，無論是開源還是閉源的軟件，甚至能夠玩如《荒野大鏢客2》這樣的商業3A遊戲。這一技術的實現，表明Agent不僅可以在複雜的虛擬環境中執行任務，還可以在實際應用中表現出色，從而為大模型和AI Agent應用的落地與產業化提供了重要支持。

除了對Agent處理複雜任務能力的探索，2023年史丹福大學的人機交互研究小組還創造了一個包含25個Agent的AI小鎮，用以模擬社會互動。這個AI小鎮設有大學、公寓、咖啡館和書店等基礎設施，Agent在其中居住並進行日常活動，儘管他們沒有意識到自己生活在模擬環境中。這些Agent不僅能去工作、閑聊、組織社交活動、結交新朋友，甚至能墜入愛河，每個Agent都有獨特的個性和背景故事。通過這種社會化模擬，展示了Agent在複雜的人類社交環境中的適應能力和行為多樣性。

通過以上兩個案例，我們可以看到用AI模擬人類社會以及解決複雜任務的能力已經成為一種研究趨勢。Agent已經能夠在虛擬環境中模擬和執行各種複雜任務，不僅限於遊戲和模擬環境，還包括與各種軟件的交互和社會化生活。這表明Agent具備成為AI員工的潛力，可以在實際工作中承擔更多複雜的任務。

清華大學的研究團隊嘗試了AI員工的一些早期探索，他們打造了一個名為ChatDev的虛擬軟件公司，由各種具有不同角色的Agent運作,包括CEO(首席執行官)、CPO(首席產品官)、CTO(首席技術官)、程序員、代碼審查員、測試員和藝術設計師等。這些Agent組成了一個多代理組織結構, 這家虛擬公司被設定了一個使命是「通過編程革新數字世界」。

ChatDev內部的Agent通過參與專門的功能研討會進行協作, 從需求分析，設計、編碼、測試和到最終的文檔編寫，依次完成軟件開發各個階段的任務。在「公司」中，每個bot分別扮演CEO、程序員、設計師等不同角色，涵蓋了遊戲研發涉及的所有崗位。

數字員工實際上是以大語言模型（LLM）驅動的，而LLM目前仍存在幻覺和數據汙染等問題。事實上，不僅是AI程序員，其他崗位的AI員工距離企業商業運作中真想要僱傭的安全、可信的數字勞力都還有不小的距離。

為了加速實現這個目標，來自複旦大學的技術團隊開發了一個名為AI2Apps的一站式AI員工開發與端側服務平台，將Devin的開發模式複刻到了任何崗位的AI員工上。團隊自研了一套基於瀏覽器的Agent操作系統，提供全套的開發人員工具，包括終端、文件管理、Agent調試、代碼編輯器和瀏覽器沙盒環境等，讓開發者能在「建築師Agent」的主導下完成任何崗位AI員工團隊的構建與組合。經過AI2Apps的端側部署後，AI員工可以通過瀏覽器在各種用戶設備中既「無所不能」又「有所不為」，模擬人類員工辦公的同時又避免了直接操控用戶設備。

這條路，還是充滿樂觀前景的。

03 企業新質生產力

AI Agent可以被視為智能時代的一種新質生產力，它與人類勞動力的關係類似於電子貨幣與現實貨幣的關係。

Agent可以和傳統的組織管理辦法相結合，將複雜問題分解成更小的子問題，優化現有工作流程，提升整體業務的反應速度和處理能力。Agent還可以是工程化思想的切實工具，用來對抗個體工作的不確定性。Agent不僅可以用工程化的思想提高群體的工作均值，還能實現行業know-how的具象化。Agent能夠分析和處理大量企業私有文檔和資料，將隱含在其中的專業知識和行業know-how進行數字化和系統化。通過不斷標註和反饋，專家的個人知識可以豐富和完善知識庫，形成知識閉環，使系統能夠持續學習並提升性能。總之，AI Agent的出現將深深改變未來人機交互的方式，使得專業知識能夠被更輕鬆地複製與傳承。

此外，AI Agent可以很好地應用在企業場景中，可以部署在邊緣設備上——即僅在本地處理和分析數據，而無需將數據上傳到雲端的大模型。這種方式不僅減少了數據傳輸的延遲，還有效保護了企業的各種敏感信息和獨傢俬密數據。

可以預見，隨著AI Agent研究的不斷髮展，Agent和人類的合作將越來越廣泛，人類的合作網絡也將升級為一個人類與AI Agent的自動化合作體系，人類社會的生產結構可能將會出現變革。未來的某一天，我們人類將不再局限於簡單的重覆性勞動，而是通過與AI的協同合作，從事更高層次的創新工作，從而開拓一個美麗新世界。

本文來自微信公眾號「複旦商業知識」（ID：BKfudan），作者：徐增林、周潪劍、李築聰、陳嘉翔、徐濤，36氪經授權發佈。

你可能喜歡