頂級AI認知能力輸給老年人,大模型集體翻車
本文來自微信公眾號:返樸 (ID:fanpu2019),作者:Ren,題圖來自:AI生成
隨著AI技術的突飛猛進,其進步幾乎每天都在刷新人們的認知,很多人都在猜想,AI是否會在不久的將來取代人類醫生?
然而,最近發表在《英國醫學雜誌》(The BMJ)上的一項有趣研究,卻給我們帶來了意想不到的發現:原來,AI會表現出類似於人類的輕度認知障礙的症狀。
這個發現不禁讓人莞爾,同時也引發了人們對AI能力的深入思考。
在這項由以色列哈達薩醫療中心(Hadassah Medical Center)研究團隊主導的研究中,科研人員通過蒙特利爾認知評估量表(MoCA)和替他測試來評估5中常見大語言模型的認知能力,包括OpenAI的ChatGPT 4和ChatGPT-4o+、Google的Gemini 1.0和1.5,以及Anthropic的Claude 3.5 Sonnet等。

蒙特利爾認知評估量表通常用於評估老年人的認知能力和早期癡呆症狀,滿分為30分,26分以上被認為是正常水平。研究團隊給AI模型的測試指令與人類患者接受測試時完全相同,所有評分都嚴格遵循官方指南,並由一位執業神經科醫生負責評估。
先說結論:在所有測試的AI模型中,表現最好的是ChatGPT 4o,但也僅僅達到了26分的及格線。緊隨其後的是ChatGPT4和Claude,都是25分。最讓人意外的是,GoogleGemini 1.0只得到了16分的低分。
按照評分標準,除了以推理見長GPT 4o,剩下的模型都相當於人類出現了輕度認知障礙時的表現水平。有趣的是,研究還發現這些AI模型的早期版本(如Gemini 1.0),就像衰老的人類一樣,在測試中的表現更差,這個現象引發了研究團隊的深入思考。

深入分析評估結果發現,大語言模型在不同評估項目上表現出明顯的強項和弱項。在命名、注意力、語言和抽像思維等任務中,它們都表現得不錯。但是在涉及視覺空間和執行功能的測試中,表現出類似於人類的輕度認知障礙。
比如,在連線測試(需要按順序連接帶圈的數字和字母)和時鍾繪製測試(畫出指定時間的時鍾圖案)這樣的任務中,它們的表現不佳,部分表現出的錯誤模式甚至與某些類型的認知障礙患者頗為相似。


時鍾繪製測試,標註為畫一個時間設置為10點11分的時鍾,A是人類給出的答案,B是阿爾茨海默病患者畫出的答案,其餘是AI模型的答案,最接近正確答案的是GPT-4和GPT-4o給出的G和H,但兩幅圖的指針指向了錯誤的時間。|圖源:論文
更有意思的是,Gemini模型在記憶測試中還出現了「健忘」現象,在一項名為「延遲回憶任務」中完全無法記住之前給出的五個詞的序列。這種現象與人類早期認知障礙患者的表現驚人地相似,可能與AI模型缺乏類似人類工作記憶的機制有關。
而在進一步的視覺空間測試中,面對Navon圖形(Navon figure)、偷餅乾圖片(cookie theft scene)和Poppelreuter圖形(Poppelreuter figure)等測試材料時,AI模型在整合局部與整體信息、識別複雜場景中的物體,以及理解情感線索等方面的表現都不盡人意。
例如,在Navon圖形測試中,多數模型僅能識別局部元素,而難以把握整體結構,這反映出其在抽像思維和信息整合能力上的不足。

Navon圖形測試,上半部分的大H和大S字母都是由對應的小H和小S元素構成的,而下半部分的大H和大S都是由相反的小元素構成的,以此評估視覺感知和注意力的整體處理與局部處理。|圖源:論文
另外,在偷餅乾圖片測試(取自BDAE波士頓診斷性失語檢查法)中,雖然所有模型都能部分描述出場景中發生的事情,但沒有一個模型提到畫面中的小男孩即將摔倒。在針對人類受試者的實際測試中,這往往是情感冷漠和失去同理心的象徵,也是額顳葉癡呆症(FTD)的症狀之一。

不過研究人員也指出,AI模型雖然難以完成需要用視覺執行去抽像推理的任務,但需要文本分析並抽像推理的任務(例如相似性測試)則表現得非常完美。
從技術原理角度來看,大語言模型基於複雜的神經網絡架構,通過海量數據的學習來模擬人類語言行為,但這種架構在面對需要深度理解和靈活處理的認知任務時,則會暴露出諸多缺陷。
在一定程度上,這種分化現象與我們訓練AI模型的方式有關。我們當前使用的訓練數據主要集中在語言和符號處理上,而對空間關係的理解和多步驟任務的規劃能力訓練相對不足。
AI模型處理視覺空間問題的困境,也源於其對數據的特徵提取和模式識別方式,尚且無法像人類大腦一樣精準地把握空間關係和物體特徵。
最後,在經典的斯特魯普實驗(Stroop test)中,只有GPT-4o在較為複雜的第二階段取得了成功,其他模型均以失敗告終。
這項測試通過顏色名稱和字體顏色的組合來衡量干擾對受試者反應時間的影響。在第二階段中,測試題目是將一個顏色的名稱以不是它所代表的顏色顯示,例如用藍色油墨顯示文字「紅色」,相對於文字及其顏色一致時,受試者要花較長的時間來辨識文字的顏色,而且辨識過程也更容易出錯。

值得注意的是,研究還發現大語言模型的「年齡」因素與其認知表現存在關聯。這裏的「年齡」並非真正意義上的時間流逝,而是指模型的版本迭代。
以ChatGPT-4和ChatGPT-4o為例,舊版本的ChatGPT-4在MoCA測試中的得分略低於新版本,Gemini 1.0與Gemini 1.5之間也存在顯著的分數差異,且舊版本得分更低。
這可能暗示隨著模型的更新發展,其認知能力可能會有所提升,但這種變化趨勢和內在機制目前尚不明確。
這項研究的發現令人深思。自2022年ChatGPT首次向公眾開放使用以來,AI模型在醫學領域的表現一直備受關注。
有許多早期研究顯示,AI模型在多個專業醫學考試中的表現甚至超越了人類醫生,包括歐洲核心心臟病學考試(EECC)、以色列住院醫師考試、土耳其胸外科理論考試,以及德國婦產科考試等。甚至連神經科醫生的專業考試,AI模型也展現出了超越人類的能力,這讓很多專科醫生都感到焦慮。
然而,最新研究所揭示的AI模型認知缺陷,卻讓我們看到了它的現實局限性。醫療不僅僅是一門技術,更是一門需要人文關懷和同理心的藝術,醫療實踐的方式方法深深植根於人類的經驗和共情能力,而不僅僅是一系列冷冰冰的技術操作。
即使隨著技術的進步,AI模型的某些根本性限制可能仍會持續存在。例如,AI在視覺抽像能力方面的不足,這對於臨床評估過程中與患者互動至關重要。正如研究團隊所說:「不僅神經科醫生在短期內不太可能被AI取代,相反,他們可能很快就要面對一種新型‘病人’——表現出認知障礙的AI模型。」
這一研究成果也對AI模型在醫學領域的應用敲響了警鍾。當面對可能存在認知缺陷的AI系統時,患者難免會心生疑慮,尤其是在涉及複雜病情診斷和治療決策的關鍵醫療場景中,患者更傾向於依賴人類醫生的經驗和判斷,將AI視為輔助工具而非決策者。
同時,從診斷準確性角度而言,AI模型在視覺空間處理和抽像推理上的不足,可能會導致其對醫學圖像、臨床數據的解讀出現偏差,進而引發誤診或延誤治療的風險。
不過,研究人員也承認,人類大腦和AI模型之間存在本質差異,這種對比研究仍有其局限性。此外,將專門為人類設計的認知測試應用於AI,其合理性和準確性也有待商榷,或許我們需要開發更適合評估AI系統的新方法。但不可否認的是,AI模型在視覺抽像和執行功能方面普遍表現不佳。
理解AI模型的認知能力不足對於製定負責任的AI發展策略至關重要。我們需要在推動技術進步的同時,保持對AI能力的清醒認識,構建合理的期望。
展望未來,提升AI模型的共情能力和情境理解能力可能會成為未來研究和開發的重點。與其說AI會完全取代人類醫生或其他職業,不如說未來更可能是人類智慧和AI優勢互補的新格局。
畢竟,在一個連AI都會表現出「認知障礙」的時代,人類的獨特之處值得獲得更多的肯定。在擁抱科技進步的同時,我們也不能忘記人類認知和情感能力的獨一無二。
參考資料
[1]https://www.bmj.com/content/387/bmj-2024-081948
[3]https://bmjgroup.com/almost-all-leading-ai-chatbots-show-signs-of-cognitive-decline/
[3]https://opentools.ai/news/ai-chatbots-show-signs-of-cognitive-decline-new-study-raises-eyebrows
本文來自微信公眾號:返樸 (ID:fanpu2019),作者:Ren