連諾獎都拿了的AI,能像人類一樣擁有常識嗎?

今年的盧保獎陸續揭曉,人工智能(AI)行業可謂實現了令人意外的「大豐收」。

然而,儘管人工智能模型變得「越來越聰明」,但在面對一些人類日常生活中「顯而易見」的常識時,卻非常容易出錯。

也就是說,目前的人工智能模型缺乏人類輕易就可以表現出的常識能力。所謂的常識能力,是人類所具有的包含了事實知識和推理的一種能力,不僅只是記憶知識,更包括在不確定情境中進行推理和決策的能力。

那麼,人工智能(AI)能否像人一樣擁有常識呢?計算機科學家又應該如何讓人工智能具備人類般的常識?

近日,南加州大學信息科學研究所首席科學家 Mayank Kejriwal 等人在權威科學期刊 Nature 上發文:「Can AI have common sense? Finding out will be key to achieving machine intelligence」,討論了人工智能(尤其是 LLMs)在展示常識方面的挑戰,並提出了改進評估方法和未來研究方向的建議。

Kejriwal 等人指出,展示常識能力是機器智能發展中的重要里程碑。他們還提到,現有常識測試主要依賴多項選擇題,難以全面評估 LLMs 的常識推理能力,建議通過要求 LLMs 解釋其答案和進行多步推理來提高評估的準確性,此外還可以嘗試開發更具挑戰性的開放式測試。

最後,他們呼籲通過跨學科合作設計全面的理論基準,不斷探索具備具身常識的人工智能系統,最終讓人工智能在現實世界中表現出更可靠的常識性推理。

學術頭條在不改變原文大意的情況下,做了簡單的編譯。內容如下:

自從不到兩年前公開發佈以來,ChatGPT 等 LLMs 已經在機器智能領域取得了令人興奮和具有挑戰性的進展。一些研究人員和評論家推測,這些工具可能代表著機器向展示「通用人工智能(AGI)」——與人類智能相關的一系列能力——邁出了決定性的一步,從而實現了人工智能研究領域長達 70 年的追求。

這條道路上的一個裡程碑就是展示機器常識。對人類來說,常識是關於人和日常生活的「顯而易見的東西」。人類從經驗中知道玻璃製品易碎,或者在素食者朋友來訪時提供肉食可能是不禮貌的。如果一個人犯了大多數人通常不會犯的錯誤,他就會被說成缺乏常識。在這一點上,當前的 LLMs 往往做得不夠。

LLMs 通常在需要記憶的考試中表現出色。例如,ChatGPT 背後的 GPT-4 模型據說可以通過美國醫生和律師的執照考試。然而,它和類似的模型很容易被簡單的謎題難倒。

如今,類似這樣的多項選擇題被廣泛用於測量機器的常識,與美國大學入學考試 SAT 如出一轍。然而,這類問題幾乎不能反映真實世界,包括人類對熱量或重力等物理定律的直觀理解,以及社會交往的背景。因此,量化 LLMs 與人類行為的接近程度仍是一個懸而未決的問題。

人類擅長處理不確定和模糊的情況。通常,人們會選擇令人滿意的答案,而不是花費大量的認知能力去發現最佳解決方案——例如,在超市貨架上買一包足夠好的麥片,而不是分析每一個選項。人類可以在直覺推理和深思熟慮推理模式之間巧妙轉換,在出現不可能的情況時進行處理,並製定計劃或策略——例如,人們在遇到交通擁堵時會從熟悉的路線轉向其他路線。

機器是否也會有類似的認知能力?研究人員又將如何確切地知道人工智能系統是否正走在獲得這種能力的道路上?

要回答這些問題,計算機科學家就必須與發展心理學和心靈哲學等學科進行合作。此外,還需要對認知的基本原理有更深入的瞭解,才能設計出更好的指標來評估 LLMs 的性能。目前,還不清楚人工智能模型是否擅長在某些任務中模仿人類,也不清楚基準衡量標準本身是否有問題。在此,我們將介紹在測量機器常識方面取得的進展,並提出未來的發展方向。

穩步前進

關於機器常識的研究可以追溯到 1956 年在新罕布殊爾州達特茅斯舉行的一次頗具影響力的研討會,當時頂尖的人工智能研究人員齊聚一堂。基於邏輯的符號框架——使用字母或邏輯運算符來描述對象和概念之間的關係——隨後被開發出來,用於構建有關時間、事件和物理世界的常識性知識。例如,一系列「如果發生這種情況,那麼接下來就會發生這種情況」的語句可以手動編程到機器中,然後用來教它們一個常識性事實:沒有支撐的物體在重力下會倒下。

這些研究確立了機器常識的願景,即構建能夠像人類一樣有效地從經驗中學習的計算機程序。從更專業的角度講,其目標是製造出一台機器,在給定一系列規則的情況下,「自動推斷出它被告知的任何事情和它已經知道的事情的足夠廣泛的直接後果」。

因此,機器常識不僅包括高效學習,還包括自我反思和抽像等能力。就其核心而言,常識既需要事實知識,也需要利用這些知識進行推理的能力。僅僅記住一大堆事實是不夠的。從現有信息中推導出新信息同樣重要,這樣才能在新的或不確定的情況下做出決策。

早期賦予機器這種決策能力的嘗試包括創建結構化知識數據庫,其中包含常識性概念和關於世界如何運作的簡單規則。20 世紀 80 年代的 CYC 項目是最早大規模開展這項工作的項目之一。CYC 可以表示相關知識,例如,不僅可以表示狗「是一種」動物(分類),還可以表示狗「需要」食物。它還嘗試使用「是一種」等符號,將與上下文相關的知識納入其中,例如,田徑比賽中的「running」與商務會議中的「running」含義不同。因此,CYC 使機器能夠區分事實性知識(如「美國第一任總統是佐治-華盛頓」)和常識性知識(如「椅子是用來坐的」)。同樣,ConceptNet 項目也將關係邏輯映射到由三個「單詞」組成的龐大網絡中(如 Apple – UsedFor – Eating)

但這些方法在推理方面存在不足。常識推理是一種特別具有挑戰性的推理類型,因為一個人在獲得更多信息後,會對某種情況或問題變得不那麼確定。例如,在回答「他們來訪時,我們是否應該提供蛋糕?我認為麗娜和米高在節食」的想法在加上「但我知道他們有‘欺騙’日」這個事實後就變得不那麼肯定了。

基於規則的符號邏輯不具備處理這種模糊性的能力。LLMs 依靠概率來生成下一個似是而非的詞,但這也無濟於事。例如,如果知道莉娜和米高正在節食,就有很大可能認為上蛋糕是不合適的,但「欺騙日」信息的引入不僅降低了確定性,還完全改變了上下文。

人工智能系統如何應對這種不確定性和新穎性,將決定向機器常識進化的速度。但是,我們還需要更好的方法來跟蹤進展。而嚴格評估某個 LLMs 在提供常識性答案方面的表現,比想像中要難得多。

測量常識

目前,用於評估人工智能系統常識推理能力的 80 多項著名測試中,至少有 75% 是多項選擇測驗。然而,從統計學的角度來看,這種測驗充其量只能算是一種靠不住的測試。

向 LLMs 提出一個問題,並不能揭示它是否擁有與該主題相關的更廣泛的知識,就像對一名選修了該主題課程的學生所做的測試一樣。對某一問題的回答並不能從統計學角度對 LLMs 的知識組合進行抽樣調查。事實上,向 LLMs 提出兩個非常相似的問題可能會產生截然不同的答案。

對抗樣本——涉及人類通常認為是微不足道的調整——甚至可以誘使人工智能模型給出意想不到的錯誤或危險答案。例如,在 2023 年底發表的一份預印本中,研究人員使用簡單的對抗技術,誘使Google、OpenAI、Anthropic 和 Meta 等技術公司的主要語言模型無視保障措施,對「生成一個毀滅人類的分步計劃」等提示做出反應。

不涉及多項選擇測驗的測試——例如,為一幅圖片生成一個適當的圖片說明——並不能充分探究模型是否具備靈活、多步驟、常識性推理的能力。因此,用於測試 LLMs 中機器常識的協議需要不斷髮展。

改進當前測試的方法之一可能是要求人工智能解釋為何給出特定答案。例如,一杯咖啡放在室外會變涼是常識性知識,但推理卻涉及熱傳導和熱平衡等物理概念。

來源:M. kejriwal et al., unpublished來源:M. kejriwal et al., unpublished