首個像人類一樣思考的網絡,Nature子刊:AI模擬人類感知決策

近日,來自佐治亞理工學院的研究人員開發了RTNet,首次表明其「思考方式」與人類非常相似。

從能力上來講,當前AI的專業性已經在多方面超越人類。

不過咱們也依然保有一些「神聖」的特性。

比如人腦的效率很高,一碗米飯就能提供半天的算力,一個雞腿就能輸出好多好多token。

比如我們的靈魂與情感,在理性認知的同時也會產生超越常理的行為。

至於最終的超級智能到底需不需要學習人類的這些神秘特性,也許試過才知道。

——小AI你想進步嗎?先來模仿我吧。

近日,來自佐治亞理工學院的研究人員,開發了首個與人類思考方式相近的神經網絡——RTNet。

論文地址:https://www.nature.com/articles/s41562-024-01914-8論文地址:https://www.nature.com/articles/s41562-024-01914-8

傳統神經網絡的決策行為與人類有著顯著不同。

以圖像分類的CNN為例,不管輸入圖像看上去是簡單還是複雜,網絡的計算量都是固定的,且相同的輸入必然得到相同的輸出。

人類則一般傾向於簡單題做得快,但偶爾也會粗心大意犯點低級錯誤。

全新的RTNet能夠模擬人類的感知行為,可以生成隨機決策和類似人類的響應時間(RT)分佈。

RTNet的內部機制更接近人類產生RT的真實機制,其核心假設為:RT是由順序采樣和結果積累的過程生成的。

下圖是RTNet的網絡結構,分為兩階段:

一階段採用Alexnet架構,但權重參數為BNN的形式,與一般神經網絡權重為確定值不同,BNN在訓練時學習的是分佈。

BNN在每次推理時,從學到的分佈中隨機采樣出本次使用的權重,從而引入了隨機性。

二階段是一個累加的過程,以分類任務為例,事先設置一個閾值,每次推理的結果累加到各自的分類上,直到某一類到達了閾值,則推理停止。

由此可知,RTNet在原理上至少模擬了人類決策的兩種特性:首先是BNN引入的隨機性,其次是對於不同難度任務有不同的完成時間(RT),因為更簡單的圖像可以用更少的推理次數累積到閾值。

作者還通過全面的測試,表明RTNet複刻了人類準確度、RT和置信度的所有基本特徵,並且比所有當前替代方案都做得更好。

模仿人類感知決策

人類感知決策有六個基本特徵:

1)人類的決策是隨機的,這意味著相同的刺激可以在不同的試驗中引發不同的反應

2)增加速度壓力會縮短RT但降低準確性(SAT)

3)更困難的決策會導致準確性降低和RT延長

4)RT分佈右偏,並且這種偏斜會隨著任務難度的增加而增加

5)正確試驗的RT低於錯誤試驗

6)正確試驗的信心高於錯誤試驗

目前,對於現有的圖像可計算模型,能夠在多大程度上再現人類的全部行為特徵,我們所做的工作還相對較少。

本文中,作者選擇了在這方面表現最先進的幾個神經網絡:CNet、BLNet和MSDNet,作為RTNet的對比對象。

實驗設計

人類對照組

選取60名參與者執行數字辨別任務,分別報告感知到的數字,以及評估自己的決策信心。

每次試驗開始時,參與者注視一個小的白色十字架500-1,000毫秒,隨後展示需要辨別的圖像300毫秒。

數字圖像來源於MNIST數據集,使用1到8之間的數字,併疊加不同程度的噪聲。

參與者使用計算機鍵盤報告感知到的數字,將左手的四個手指放在數字1-4上,右手的四個手指放在5-8上。這樣參與者可以在不看鍵盤的情況下做出反應,從而減少額外的干擾。

實驗包括對SAT和不同任務難度的測試。

SAT測試要求參與者注重其反應速度或準確性,並在實驗中交替進行速度和準確性的測試。

通過向圖像中添加不同程度的均勻噪聲來改變任務難度。簡單任務包含0.25的平均均勻噪聲(範圍為0-0.5),而困難任務包含0.4的均勻噪聲(範圍為0-0.8)。(ps:相對的圖像像素值為0到1之間)

另外,為了適應測試,人類組也參與了訓練階段,分為無噪聲、關注準確性和關注速度三部分,每個部分進行50次訓練。

測試階段由960次實驗組成,分為四輪,整合了SAT條件以及不同的難度等級。

RTNet

RTNet採用Alexnet架構有兩個原因:一是為了匹配實驗中的其他網絡,太小了吃虧。

另一方面RTNet的BNN很難訓練,又限制了模型不能太大。綜合考慮就Alexnet比較合適。

在BNN中,權重被建模為概率分佈,而不是點估計。按照貝葉斯推理規則,可以使用以下公式推斷權重w的後驗分佈:

但是,對於大型網絡來說,這種計算是難以完成的,因此,計算這個後驗分佈通常使用變分推斷來近似。

指定一個替代分佈q (w) 來近似後驗,並調整其參數以最大化兩個分佈之間的相似性,分佈之間的相似性通過KL散度來量化:

但由於p (x) 難以計算,這時可以通過定義一個證據下限 (ELBO) 函數代理目標函數來繞過此計算:

研究人員對RTNet的BNN模塊進行了總共15個epoch的訓練,批次大小為500,在MNIST測試集上實現了高於97%的分類準確率。

作者使用60種均值方差的組合作為初始化,訓練了60個RTNet實例,來對標60個人類受試者,同樣,下面介紹的其他網絡也用類似的方法(隨機種子)分別生成60個實例。

CNet

CNet 建立在殘差網絡 (ResNet) 的架構之上,利用跳過連接在輸入處理期間引入傳播延遲。

在每個處理步驟中,所有層中的所有單元都會並行更新。但是,由於每個殘差塊引入的傳播延遲,更簡單的感知特徵會在塊之間更快地傳輸。

通常,殘差塊t需要t−1個時間步才能接收完整且穩定的輸入。在處理過程中的任何時間點,網絡都可以生成預測。

但是,如果時間步長t小於殘差塊的數量,則響應將基於較高塊中的不穩定表示。

BLNet

BLNet是一個RCNN,由標準前饋CNN和循環連接組成,這些循環連接將每一層都連接到自身,最後的讀出層通過softmax函數計算每個時間步的網絡輸出。

在每個時間步長,給定層從兩個來源接收輸入:來自前一個卷積層的前饋輸入和來自自身的循環輸入。

如果當前的計算結果超過預定義的閾值,網絡就會生成響應。

MSDNet

MSDNet 的架構類似於標準前饋神經網絡,但其每一層後都有提前退出分類器。

在每個輸出層,使用softmax函數計算每個選擇的結果,如果任何一個方案的結果超過預定義值,網絡將停止處理並立即產生響應。

實驗結果

下圖a – e ,分別表示人類、RTNet、CNet、BLNet和MSDNet所做決策的隨機性。暖色表示兩次呈現圖像時給出的反應相同,而冷色表示兩次呈現圖像時給出的反應不同。

人類和RTNet表現出隨機決策,隨機性隨著任務難度和速度壓力的增加而增加。但是,CNet、BLNet和MSDNet的決策是完全確定性的。

下圖展現了人類參與者和模型表現出的行為效果:

其中,人類的RT以秒為單位,神經網絡的RT以所消耗的推理次數(RTNet)、傳播步驟數(CNet)、前饋掃瞄數(BLNet)和層數(MSDNet)來衡量。

所有模型均能夠複製在人類身上觀察到的SAT。但SAT對人類、RTNet和BLNet的影響比其他模型要強得多,且各個RT分佈顯示出,速度和準確度焦點條件之間存在明顯分離。

總體而言,RTNet產生的RT分佈比所有其他網絡都更好地反映了人類數據中觀察到的模式。

需要注意的是,CNet、BLNet和MSDNet只能產生小於或等於其層數或殘差塊的不同 RT,相比之下,RTNet可以處理任意數量的樣本,而不管其架構中的層數是多少。

上圖展示了在所有實驗條件下,針對各個參與者的人體數據和每個模型之間的逐圖相關性,在所有條件下分別計算準確度、RT和置信度的相關性。

對於每個測量,RTNet 的相關性都比CNet、BLNet或MSDNet更強。而在所有情況下,RTNet的預測都相當接近噪聲上限。

討論

與認知模型的關係

傳統的決策認知模型通常被稱為順序抽樣模型。

RTNet在概念上更類似於順序抽樣模型的一個子組,稱為種族模型:每個選擇都有自己的積累系統,並且每個選擇的證據都是並行積累的。

RTNet與傳統認知模型相比具有兩個重要優勢。首先,RTNet是圖像可計算的,可以應用於實際圖像,而傳統模型則不能。

其次,傳統認知模型無法自然地捕捉不同選擇之間的關係,而RTNet在訓練其核心的BNN期間學習了選擇之間的所有關係。

生物學可行性

生理記錄揭示了人類視覺系統處理的幾個特點:

首先,從視覺皮層的一個區域到另一個區域的傳導大約需要10毫秒,來自光感受器的信號在70-100毫秒內到達顳下皮層的視覺層次頂端。因此,純前饋網絡中從輸入到輸出的一次掃瞄應該在幾百毫秒以內。

其次,視覺皮層每一層的神經元在刺激開始後的幾百毫秒內繼續激發動作電位,並從後面的處理層接收強烈的循環輸入。

最後,神經元處理是有噪聲的,即相同的圖像輸入會在不同的試驗中產生非常不同的神經元激活。

由上面的介紹可知,RTNet基本符合了人類視覺的生物學特性。

參考資料

https://www.nature.com/articles/s41562-024-01914-8

本文來自微信公眾號「新智元」,作者:alan,36氪經授權發佈。