按照Bengio等大佬的AGI新定義,GPT-5才實現了不到10%
給 AGI 畫一條「及格線」,GPT-4 和 GPT-5 竟都是「差等生」?
通用人工智能(Artificial General Intelligence,AGI)是目前 AI 領域內各個頂尖實驗室努力的大方向,但是有關 AGI 的定義可謂眾說紛紜。也就是說,在追逐 AGI 這一聖盃時,我們究竟在追逐什麼?
近日,圖靈獎得主 Yoshua Bengio、前Google CEO 艾力・施密特、紐約大學教授 Gary Marcus 等眾多學者與行業領袖聯手,終於為 AGI 這個炙手可熱卻又模糊不清的概念提出了一個全面、可測試的定義。

- 論文標題:A Definition of AGI
- 論文鏈接:https://www.agidefinition.ai/paper.pdf
這篇文章提供了一個全面、可量化的框架來試圖消除這些模糊性。其框架旨在具體明確:AGI 是一種能夠匹敵甚至超越受過良好教育的成年人的認知多功能性和熟練程度的人工智能。
這一定義強調,通用智能不僅需要在狹窄領域內展現專業化的表現,還需要具備人類認知技能的廣度(多功能性)和深度(熟練程度)。
以人類為鏡:量化 AGI 的框架
為了將這一定義付諸實踐,我們必須關注通用智能的唯一現存範例:人類。人類的認知並非單一能力,而是一個由進化磨練出的眾多獨特能力構成的複雜體系。這些能力賦予了我們非凡的適應能力和對世界的理解力。
為了系統地研究 AI 系統是否具備這種能力範圍,該研究以卡達爾 – 賀恩 – 卡路爾 (CHC,Cattell-Horn-Carroll) 認知能力理論為基礎,該理論是人類智力最經實證驗證的模型。CHC 理論主要源於一個多世紀以來對各種認知能力測試集合的迭代因子分析的綜合,其提供了人類認知的層次分類圖。它將一般智力分解為不同的廣義能力和眾多狹義能力(例如歸納、聯想記憶或空間掃瞄)。
為了確定人工智能是否具備與受過良好教育的成年人一樣的認知多樣性和熟練程度,該研究使用了用於測試人類的認知測試系統來測試人工智能系統。這種方法用具體的測量指標取代了模糊的智力概念,從而得出了標準化的「通用智力指數」(AGI)分數(0% 到 100%),其中 100% 表示通用智力指數。

AGI 的十大核心能力
該框架包含十項核心認知份量,它們源自 CHC 理論中的「廣義能力」,並被等量加權(每項 10%),以強調廣度並覆蓋主要的認知領域。
下圖展示了這些份量及各自更細分的一些領域方向:

值得注意的是,該團隊還評估了每個份量下,當前的 GPT-4 和 GPT-5 模型的表現。
一般知識(K):對世界事實性知識的廣度理解,包括常識、文化、科學、社會科學與歷史。

閱讀與寫作能力(RW):在書面語言上的理解與表達熟練度,從基礎解碼到複雜的理解、寫作與運用。

數學能力(M):在算術、代數、幾何、概率與微積分等方面的知識與技能深度。

現場即時推理能力(R):靈活調控注意力以解決新問題的能力,不僅依賴既有知識結構,通過演繹與歸納測試。

工作記憶(WM):在文本、聽覺與視覺模態下,保持並操作當前信息的能力。

長期記憶存儲(MS):持續學習新信息的能力,包括聯想記憶、意義記憶與逐字記憶。

長期記憶檢索(MR):高效而準確地檢索已存知識的能力,尤其是避免「虛構」(幻覺)的關鍵能力。

視覺處理(V):感知、分析、推理、生成與掃瞄視覺信息的能力。

聽覺處理(A):區分、識別並創造性地處理聽覺刺激(包括語音、節奏與音樂)的能力。

速度(S):快速執行簡單認知任務的能力,包括感知速度、反應時間與處理流暢度。

這一操作化框架可提供多模態(文本、視覺、聽覺)的整體性評估,從而作為嚴格的診斷工具,用以揭示當前 AI 系統的優勢與顯著弱點。
而 GPT-4 和 GPT-5 在各份量上的表現均未超過 10%,甚至在不少具體指標上都是 0 分表現。因此,可以說當前的前沿 LLM 模型離 AGI 還相距甚遠。下表總結了這兩個模型的整體得分情況:

討論
在這篇定義性質的論文中,研究人員還做了進一步的討論,給出了一些更深度的見解和概念界定。
「鋸齒狀」AI 能力與關鍵瓶頸
首先,該團隊發現,當代 AI 系統的認知結構呈現出高度不均衡,呈現所謂「鋸齒狀」(jagged)特徵。
模型在某些依賴大量訓練數據的領域表現出極高的熟練度,例如一般知識(K)、閱讀與寫作(RW)、數學能力(M),但同時在基礎認知機制上存在嚴重缺陷。
這種不均衡的發展揭示了通往 AGI 的特定瓶頸。其中最顯著的瓶頸可能是長期記憶存儲(MS),當前模型在這一項的得分幾乎接近 0%。缺乏持續學習的能力使得 AI 系統呈現「失憶症」式的特徵,限制了其實用性,並迫使模型在每次交互中都重新學習上下文。
類似地,在視覺推理(V)方面的缺陷,也阻礙了 AI 智能體與複雜數字環境進行有效交互的能力。
能力扭曲與「通用性幻覺」
此外,當前 AI 能力的「鋸齒狀」分佈,常常導致所謂的「能力扭曲」(capability contortions):模型會利用某些領域的強項來彌補其他方面的嚴重弱點。
這些權宜之計掩蓋了底層局限,製造出一種脆弱的「通用智能幻覺」。
比如一種典型的扭曲現象,是依賴巨大的上下文窗口(工作記憶,WM)來彌補長期記憶存儲(MS)的缺失。
實踐中,研究者讓模型使用超長上下文來維持狀態與吸收信息(例如加載整個代碼庫)。然而,這種做法效率低、計算成本高,並會使模型的注意機制過載。更關鍵的是,它無法擴展到需要連續數天甚至數週上下文積累的任務。真正的長期記憶系統可能需要一個獨立的模塊(例如 LoRA 適配器),通過不斷調整模型權重來吸收經驗。
另外,在長期記憶提取(MR)方面的不精確表現(如幻覺或虛構)常可通過集成外部搜索工具加以緩解,這種方式被稱為檢索增強生成(RAG)。
然而,這種對 RAG 的依賴本質上也是一種「能力扭曲」,掩蓋了 AI 記憶中的兩種深層弱點:
- 它彌補了模型無法可靠訪問自身龐大但靜態的參數化知識的能力缺陷;
- 更關鍵的是,它掩蓋了缺乏動態、經驗式記憶系統的事實,即一種能長期保存私人交互與持續變化上下文的持久記憶機制。
雖然 RAG 可以擴展到私密文檔,但它的核心功能仍是「數據庫檢索」。這種依賴可能成為 AGI 的根本性負擔,因為它無法取代真正學習、個性化與長期上下文理解所需的整體記憶整合能力。
誤將這些「能力扭曲」視為真正的認知廣度,會導致對 AGI 到來時間的誤判。它們還可能讓人誤以為智能過於「碎片化」而無法被系統性理解。
如果將智能比作引擎
有趣的是,在論文中,研究團隊還做了一番類比:將對智能的多維度理解類比為一個高性能引擎。其中,整體智力水平相當於「馬力」;人工心智,如同引擎,其性能最終受限於最弱的部件。圖 3 展示瞭解各能力間的關係。

目前,AI 「引擎」的幾個關鍵部件存在嚴重缺陷。這極大限制了系統的總體「馬力」,無論其他部件多麼優化。該框架正是用來識別這些缺陷,從而評估我們距離真正 AGI 還有多遠。
社會智能(Social Intelligence)
人際交往技能分佈在多個廣義認知能力中:例如,認知共情體現在一般知識(K)中的「常識」能力;面部情緒識別是視覺加工(V)中「圖像描述」熟練度的前提;而心智理論(Theory of Mind)則在即時推理(R)的測試中體現。
認知能力的相互依賴性
該團隊指出,雖然該框架將智能拆分為十個獨立的測量維度,但必須認識到這些能力之間高度相互依賴。複雜的認知任務幾乎從不依靠單一領域完成。
例如,解決高階數學問題同時依賴數學能力(M)與即時推理(R);「心智理論」題目需要即時推理(R)與一般知識(K);圖像識別涉及視覺加工(V)與一般知識(K);理解一部電影則需整合聽覺加工(A)、視覺加工(V)與工作記憶(WM)。
因此,不同的測驗組合往往共同考察多個能力,反映出通用智能的整體性特徵。
「解決數據集」與「解決任務」的區別
須知,在一個數據集上的成功並不意味著在該任務上就是成功的 —— 這些數據集只是必要而非充分條件。
因此,這裏基於任務的定義方法可能會更加合理一些。
該團隊表示:「由於我們基於任務集合,而非過度依胡禮定數據集,評測者可在任何時間使用當時最佳的測試手段來檢驗 AI 系統。」
相關概念的定義
在這篇論文中,研究團隊還簡單界定了其它一些相關概念:
- Pandemic AI:能設計並製造出新的、具有傳染性與高毒性的病原體,可能引發大流行。
- Cyberwarfare AI:能自主規劃並執行複雜、多階段的網絡攻擊,目標包括能源、金融、防禦等關鍵基礎設施。
- Self-Sustaining AI:能自主長期運行、獲取資源並維持自身存在的 AI。
- AGI(人工通用智能):認知廣度與熟練度能與受過良好教育的成年人相匹敵或超越的 AI。
- Recursive AI(遞歸型 AI):能獨立完成整個 AI 研發生命週期,從而在無人類介入下創造出更高級的 AI 系統。
- Superintelligence(超級智能):在幾乎所有人類關心的領域都遠超人類認知表現的 AI。
- Replacement AI:能更高效、更低成本地完成幾乎所有任務,使人類勞動在經濟上變得多餘的 AI。
AGI 的障礙
實現 AGI 需要克服多項重大挑戰。例如:
- 機器學習社區提出的 ARC-AGI 挑戰(用於衡量抽像推理)對應即時推理(R)任務;
- Meta 正嘗試構建具備直覺物理理解的世界模型,這在影片異常檢測任務(V)中體現;
- 空間導航記憶(WM)的挑戰是李飛飛創業公司 World-Labs 的核心目標;
- 幻覺問題(MR)與持續學習(MS)的難題也必須得到解決。
這些重大障礙意味著,在短期內(例如未來一年內)獲得 100% AGI 分數的可能性極低。
適用範圍說明
該團隊首先表示:「我們的定義並非一個自動評測系統或固定數據集,而是一組範圍明確、覆蓋廣泛的任務集合,其作用是測試特定的認知能力。」
AI 是否能完成這些任務,可以由任何人通過現有的最佳評估手段手動驗證。
因此,這一定義比固定的數據集更加開放、穩健。
其次,該 AGI 定義聚焦於受過良好教育的個體通常具備的能力,而非所有此類個體知識與技能的疊加體。
換言之,該團隊定義的 AGI 是人類水平的 AI,而非經濟體水平的 AI(economy-level AI),例如,據報導 OpenAI 與微軟曾將 AGI 定義為「能創造 1000 億美元利潤的 AI」。也就是說,這是用於衡量認知能力,而非特定的經濟價值技能,也不直接預測自動化或經濟方面的影響。經濟層面的 AI 評估留待其他研究。
最後,該團隊特別強調,這個定義特意聚焦於核心認知能力,而非諸如運動技能或觸覺感知等物理能力。「因為我們關心的是心智(mind)能力,而非執行器或傳感器的質量。」
結語
這篇諸多 AI 行業大佬參與的論文提出了一個可量化的通用人工智能(AGI)定義框架:其將 AGI 的智能水平定義為認知廣度與熟練度需與受過良好教育的成年人相當。
該定義基於 Cattell-Horn-Carroll 理論,這是對人類認知最具實證支持的模型。
更具體而言,該框架將通用智能分解為十個核心認知領域(包括推理、記憶、感知等),並對已有的人類心理測驗體系進行了改編,使其可用於評估 AI 系統。
通過應用此框架,該團隊發現當代模型的認知表現呈現出高度「不均衡」的特徵。
雖然在知識密集型領域表現優異,但當前的 AI 系統在基礎認知機制上仍存在顯著缺陷,尤其是長期記憶存儲方面。
最終的 AGI 分數(例如 GPT-4 為 27%,GPT-5 為 58%)提供了一個具體的量化尺度,既展現了 AI 的迅速進步,也揭示了當前距離真正 AGI 仍存在巨大差距。
本文來自微信公眾號「機器之心」,編輯:Panda、澤南,36氪經授權發佈。



















