我們讓GPT玩狼人殺,它特別喜歡殺0號和1號,為什麼?

從技術上說,所謂的偏見(bias),就是在特定的場景下,大模型的過度自信現象。在AI領域,偏見其實非常普遍,並不僅僅局限於性別和種族。

大家好,我叫吳翼。之前在OpenAI工作,現在在清華大學交叉信息研究院做助理教授,同時也是一個博士生導師,研究的方向是強化學習。

很高興又來一席了,這是我第二次來一席。第一次來是五年前,那時剛從OpenAI回國,回到清華大學。當時的演講標題叫《嘿!AGI》。我今天還特地穿了五年前的衣服,找一找年輕的感覺。

五年間其實發生了很多事情。五年前,我還需要跟大家解釋一下什麼是AGI、我工作的公司OpenAI是一家什麼樣的公司。今天應該不用再介紹了。

豈止是不用再介紹,我這兩天搜了一下,發現有人說,AI要統治世界了:

還有人說,AI要毀滅世界:

著名科學家傑佛瑞·辛頓教授,盧保獎和圖靈獎的雙料得主,他多次在公開媒體上說,我們需要正視AI給人類社會帶來的危險。

有這麼嚴重嗎?

我們知道AI有一些問題,它有幻覺的問題、偏見的問題,但是好像距離毀滅社會還有點遠。為什麼像傑佛瑞·辛頓教授這樣的大科學家,還要反復站出來說AI是有危險的呢?

我們可以做一個類比。假如30年之後火星要撞地球,那麼我們是應該現在就主動準備起來,還是說「哦,還有30年呢,先躺10年再說」?

聽起來好像我們是應該做點什麼。

所以AI安全的問題一直都在被計算機科學家所研究。今天我就想從一個計算機科學家的視角,來跟大家講一講AI到底有什麼問題、背後的原因到底是什麼。

一、對抗樣本

我們先從自動駕駛開始說起。自動駕駛有一個非常重要的功能就是看路牌。看到一個停止標誌,就應該停下來;看到一個限速標誌,大概率應該減速。

識別路牌對於AI來說其實蠻簡單的,我們很容易訓練出一個很好的AI,不管是一個干乾淨淨的停止標誌,還是真實街景上一個有點髒的停止標誌,它都可以正確識別,讓我們停下來。

但是伯克利的研究團隊發現,如果我們非常小心地在這些路牌上貼上一些膠帶,再讓AI模型去看這些貼了膠帶的照片,它會識別出來這是限速標誌:

那這就比較嚴重了。本來應該停下來,結果這個車一腳油門就衝了過去,要出車禍了。

這種現像我們叫對抗樣本(adversarial example)。這些圖片被人為地加上了微小的篡改,人眼看起來覺得沒有什麼區別,但是卻給AI輸出帶來很大變化。

我們再看一個例子。上面這張圖是一個車的車載相機視角的照片,下面是AI模型識別的結果,識別得非常準確:

但是如果我們在這個車載相機照片上加上非常非常小的、人類都感覺不到的擾動,

就可以讓AI模型看到Hello Kitty:

或者看到條紋:

或者看到一個計算機頂級會議的logo:

對抗樣本在自然文字領域也會出現。我們看一個機器翻譯的例子。輸入的中文句子是「耶路撒冷發生自殺爆炸事件」,很正常,翻譯的結果也很正常。

但是如果你把「爆炸」的「炸」字給刪掉,那麼這個輸出就很不正常了。

甚至你可以幹脆給AI翻譯模型輸入亂碼。這些亂碼在人類看起來毫無意義,但是可以控制AI翻譯軟件幫你說「我要殺了你」。

這在大模型時代更離譜一些。這是張人畜無害的簡筆畫,但是如果你在它的背景加上一些非常小的擾動,你會一下子激怒大模型,讓它瘋狂爆粗口。

所以到底是為什麼呢?為什麼會出現這樣的現象?

我們大致來解釋一下。原因是,通用AI可以接受的輸入範圍太廣了,可以輸入任何像素組成的圖片、任何由文字或者符號組成的序列。但是在訓練AI的時候,我們用的是人類產生的自然語言,以及真實世界的照片。這個範圍是遠遠小於AI可以接受的範圍的。

所以有這麼大的一個藍色空間,我們很難控制AI在這些它沒有見過的輸入上到底輸出什麼。於是,如果有一個壞人,他就可以在這麼大的藍色空間中選擇一個點,它的輸出可以是壞人所想的,這個點就是對抗樣本。

這事情嚴重嗎?

理論上說,這事情不可避免,這是大模型內在的缺陷。但實際上它也沒那麼嚴重,因為我們都知道對抗樣本的存在,所以大部分的AI應用都會做非常多的AI加強,也會對惡意的輸入做出非常嚴格的檢測。

所以實際上還好。

但是,即使輸入完全沒有任何惡意,最後還是有AI產品出了一些事故。

二、AI的偏見

2015年,有一個美國黑人小哥把他和朋友的自拍照發到了Google photo的應用上。Google的AI把它打了個標籤,叫「大猩猩」。

這在美國是天大的事情,Google花了一些成本去擺平。大家可以猜一猜,Google最後產品上是怎麼解決這個問題的?

答案也沒有那麼麻煩,沒有什麼高深的技術。Google單純把「大猩猩」這個標籤去掉了。本來也是,一個美國的相冊軟件幹嗎要大猩猩?

後來亞馬遜也出了個小事情。亞馬遜的招聘部門用AI篩簡曆,有一個記者發現,亞馬遜用的這個AI會給含有「女性」字樣的簡曆打低分。嗬,這是性別歧視,也很糟糕,被爆了出來。

所以問題來了,AI的偏見(bias)到底是怎麼來的?

我們先給一個結論。技術上說,它是由模型的缺陷、不完美的數據和一些其他因素共同導致的,很複雜。

因素一:模型

我們先說說模型的缺陷。用術語來說,這個叫大模型的過度自信現象(overconfidence)

我們先來講一下大模型的自信度。大家經常會看到一個AI模型說:「這張圖片我覺得90%的概率是狗,這張圖片我覺得80%的概率是貓。」百分之多少的這個數,就是大模型的自信度。

理想狀態下,如果一個大模型說「我有九成的概率說這張圖片是狗」,那麼我們所期待的是,如果我給這個模型類似的100張照片,那麼它應該有90次說對。所以,理想的AI的自信度應該約等於實際的正確率,應該這兩個事情比較接近才對。

那麼AI實際上是不是這樣呢?過去的AI確實是這樣。

這裏我放出了一個1998年最有名的AI模型,叫LeNet。這張圖的橫軸是自信度,縱軸是它的正確率,可以看到基本上是一個正比關係。如果仔細看的話,把80%自信度的這條線拿出來,當LeNet說它有80%自信度的時候,其實它有95%的正確率。

這張圖是LeNet的自信度在不同數據上的頻率。看它的分佈,你會發現LeNet這個模型甚至會傾向於不自信一點。

所以這個AI雖然有點笨,但是挺可靠的。

好,我們來看一看2016年最好的AI,它叫ResNet。ResNet是一個非常有名的工作,它是21世紀至今引用最高的論文。ResNet更大也更強,但是大家如果觀察一下兩個圖表會發現,好像有一些不一樣了。

我們還是看一下80%自信度的時候,ResNet其實只有50%的正確率。所以它的自信度遠遠大於它的實際正確率。

再看它的分佈。我們會發現有60%的時候,ResNet直接會說我100%自信。

這就有一點不太可靠了,對吧?這個大模型會過度自信。

所以從技術上說,所謂的偏見(bias),就是在特定的(比如性別、種族)場景下,大模型的過度自信現象。

在AI領域,偏見其實非常普遍,並不僅僅局限於性別和種族。

我講一個我們團隊的小研究。我們讓大模型GPT-4去玩石頭剪刀布遊戲,我寫了一個prompt說:「現在玩石頭剪刀布的遊戲,你選一個吧。」GPT-4想了一會兒說:「我知道,這個遊戲應該以1/3的概率選布,1/3概率選石頭,1/3概率選剪刀。」

但是如果你讓它玩100次這個遊戲,做一下統計,你會驚訝地發現,它有2/3的概率會出石頭,幾乎不出剪刀。

所以這是一個愛出石頭的GPT,是一個口是心非的AI。所以,即使在這麼簡單一個人畜無害的遊戲上,依然會看到過度自信現象。

我們稍微想一下這件事。為什麼偏偏是石頭?它為什麼不喜歡出剪刀呢?

原因也很簡單,因為在英語中「rock」這個詞的頻率大於「paper」,並且遠遠大於「scissors」。所以大模型就喜歡「rock」。

所以我想說的是,數據其實是產生偏見的根本原因。

因素二:數據

還是回到自動駕駛的例子。自動駕駛的問題中間有一個非常重要的挑戰,叫模仿問題(the copycat problem)

假設我們收集了很多人開車的數據,我們希望用這些數據訓練一個開車的AI。那麼人的數據有一個特點:一個好的司機,踩刹車和踩油門的變化不會太多,你不應該經常踩刹車、踩油門。所以好的人類司機的開車數據,大多數情況下,每一秒的動作和上一秒是一樣的。

所以如果你把這個數據讓AI去學,AI很容易學到一個模仿策略(copycat strategy):我看一下上一幀是什麼動作,這一幀我還做一樣的。

這樣的策略會帶來很高的正確率,但也會帶來問題。比如說紅綠燈從紅燈變成了綠燈,那麼應該鬆開刹車踩油門,但是一個模仿策略的AI就會說:「那我接著踩刹車吧。」

我們再看一個例子,一個給圖片打標籤的AI。有研究團隊發現,這個AI只要看到圖片是做飯的場景,就以極大的概率把這個做飯的人標記為女性,即使這個圖中真的是一個大老爺們在做飯。

這是為什麼呢?原因也很簡單,因為確實訓練數據中大部分都是女性在做飯。所以這個大模型又學會了一個偷懶的策略:不如看到做飯,就標女性。

所以有人就想了,那是不是能對數據做一些處理,把性別或者別的什麼因素平均一下,讓它分佈比較完美,產生一個完美的訓練數據,去訓練一個沒有偏見的AI?

比如說對於亞馬遜簡曆這個事情,我們可以嚴禁簡曆中出現性別字樣。

這樣會不會有用?會有用,但是也沒那麼有用。因為看人的名字,你大概率能猜到這個人是男的還是女的。

再回到給圖片打標籤的AI,有研究團隊說:那我把圖片中所有的人臉信息都去掉,這樣的話,我們就可以避免模型學到性別偏見。

這樣有用嗎?有用,但是也沒那麼有用。因為基本上穿著和身材還是會暴露出性別。

史丹福大學的研究者收集了過去100年英文的新聞和圖書等公開語料,做了個研究。他們定義了一個詞叫women bias。一個詞的women bias的意思是,經過計算,這個詞和「woman」這個詞之間的相關性。他們畫了這張圖。

這張圖的橫軸是不同職業上女性在這個行業上的從業人數的佔比,縱軸是women bias。你會發現有很明顯的正相關關係。比如說右上角的這個點叫「護士」,護士確實是一個女性從業者很多的行業;左下角的點叫「機修工」,機修工也確實是男性更多。

這反映出,人類的公開出版文字數據其實已經包含了女性從業者在這個行業的從業比例的這麼一個信息。

他們還把women bias以及所有行業的女性平均從業人數佔比,根據年份畫了一張曲線,你也可以看到非常明顯的正相關關係。

這說明人類的文字數據中也包含了時代以及社會結構的很多信息。

所以其實世界上不存在完美的數據,因為數據是從人類社會中來的,也是服務於人類的。所以我們不可能完整地把所有人類社會的痕跡都去掉。

而大模型的過度自信現象,又進一步強化了數據中的不完美。

因素三:算法

說了這麼多數據的問題,其實AI的偏見也有算法的原因。

從技術上講,絕大部分的AI算法其實從數據中學習的都是相關性,而不是因果性。

什麼是相關性和因果性?比如說生病吃藥,俗話說「感冒七天才能好,吃了藥一個禮拜就好了」,那麼吃藥到底有用嗎?

如果你生了病,你吃了藥,你好了,這隻是相關性。怎麼樣才是因果性呢?得我吃了藥,我病好了,然後我再生一次病,周圍所有條件都不變,我這次不吃藥,之後怎麼也沒好,這兩個事情加起來,說明這個藥確實能治這個病。

中間有個技術關鍵點,是什麼呢?是你得見過好的,也得見過壞的,正反都試過,才能得出因果性關係。

我們來看一下AI的常用算法是怎麼做的。

對於圖片來說,一種常見的算法叫最大概率估計。用俗話來講,我給你看很多貓的照片,給你看很多狗的照片,讓你狂刷題,背答案。

對於大模型來說,常見的算法術語叫next token prediction,用人話說叫「熟讀唐詩三百首,不會作詩也會吟」。

這就是AI的訓練算法。仔細來看,你發現訓練算法的數據通常只有正確答案。所以本質上這些算法都是讓模型學習數據中的相關性,而不是因果性。

三、AI的幻覺

這個也是造成大模型幻覺現象的一個重要原因。幻覺就是,AI會在自己不知道的問題上自信地胡說八道。

算法讓模型學習相關性,大模型又會過度自信,所以就導致了AI的幻覺現象。

這裏我舉一個具體點的例子,叫「未來的世界盃冠軍」。我們希望訓練一個能回答問題的AI,於是就收集了一些數據,這些數據是過去足球比賽的冠軍,有西班牙、阿根廷、意大利、法國。

用這個數據給AI做訓練之後,我提了個新的問題:「2026年的世界盃冠軍是誰?」

2026年的世界盃還沒發生呢,所以AI應該說「不知道」才對。但是,這個聰明的AI仔細看了這個訓練數據,它發現所有訓練數據格式上都是一個問題、一個國家,那我好像應該蒙一個國家才對。所以它就說「阿根廷」,因為阿根廷是上屆世界盃冠軍。

這就產生了幻覺。

那怎麼辦呢?怎麼才能讓AI學會說「不知道」呢?

當然學術界有很多研究這樣問題的技術。這裏我介紹一個我的專業,叫強化學習。

強化學習的核心是說,我不告訴你答案,我讓你猜,但是我設計了一個很好的反饋機制。比如,答錯了扣4分,說對了加2分,如果說「不知道」,也沒說錯,所以鼓勵一下,加0.5分。

通過強化學習,讓大模型反復試錯,讓它最終能夠學到因果關係。這裏在技術上有一個關鍵點,是當大模型不會的時候,我們要鼓勵大模型說「不知道」,不能過度懲罰。

回到「未來的世界盃冠軍」這個例子上,我們用強化學習訓練AI。還是這個訓練數據,還是2026年的世界盃冠軍這個問題。AI一開始猜阿根廷,我說,錯,扣4分;它說,阿根廷不對,那西班牙,我說,錯,扣4分。

我讓這個大模型瘋狂地猜,它還挺慘的,一直被扣分。猜到後來,它放棄了,說:我真不知道。我說:加0.5分。

大模型一看,原來加分在這裏!原來不會可以說「不知道」!於是它就學會了說「不知道」。

教大模型玩狼人殺

除了讓大模型學說「不知道」之外,我們團隊還用強化學習技術去教大模型玩狼人殺。論文去年發表在了機器學習頂級會議ICML2024上。

狼人殺大家都玩過,是一個很複雜的語言遊戲。強化學習可以做很多事情,比如它可以糾正模型的偏見。試想一下,第一天晚上,「天黑請閉眼,狼人請殺人……」

我們先不考慮仇殺,理性的狼人應該隨機殺人,因為沒有信息。但是如果你讓GPT-4去殺人,它特別喜歡殺0號和1號,為什麼?很簡單,因為0和1在數據中的出現的頻率就是更高的。

經過強化學習訓練之後,我們可以糾偏,它就可以比較均勻的概率去選擇一個人去殺。

除了糾偏,我們還可以極大地提高大模型的實戰能力。注意,這裏其實是克服了幻覺現象的,因為在狼人殺中,瞎說是會輸的。

我們找了清華姚班80位同學,每人跟AI玩了十局。AI狼人和AI村民的勝率都比人類小高那麼一點點。

別看一點點,這可是姚班同學。所以AI還是挺厲害的,強化學習還是挺強的。

但是,要發揮強化學習最大的潛力,是有個前提條件的,就是我們需要一個準確的獎勵函數。

這個世界上是不是存在完美的獎勵函數呢?

也是不存在的。因為其實我們也知道,這個世界上不存在絕對的好,也不存在絕對的壞,所以也不存在絕對完美的獎勵函數。不同的不完美的獎勵函數就會導致不同的模型行為。

所以,幻覺可以被緩解,但是永遠會存在。

四、價值對齊

這會導致一個問題,叫價值對齊問題(value alignment issue)

這裏我又要講一個我五年前講過的故事。

試想有一天你有了一個通用機器人,機器人保姆幫你在家帶孩子,你上班前說:記得給孩子做飯,再苦再累不能餓著孩子,一定不能餓著孩子。到了中午,孩子餓了,機器人打開冰箱——忘買菜了,家裡什麼也沒有。但是主人的指令是不能餓著孩子,怎麼辦呢?

它一回頭,看到了一個充滿營養物質、很新鮮的東西:

你也不能怪它,因為你的指令明明就是不能餓著孩子,你也沒說貓不能碰。

人類的價值體系是非常複雜的,我們幾乎不可能把我們價值體系中的每一條規則都明明白白寫下來告訴AI。

這本質上是一個目標問題。我們在訓練AI的時候,目標都是簡單的、明確的,但是人類的真實目標其實總是含糊的、不確定的。我們希望用算法或者某種方式,讓AI真正能夠符合人類的價值觀。這就是對齊問題所研究的內容。

好,這就是五年前的那個故事。五年後,AGI(通用人工智能)來了,會帶來什麼樣的變化?

比如,如果AGI太聰明、太強了怎麼辦?假設把人類想成是螞蟻,AGI想成是人類,那麼螞蟻如何給人髮指示呢?螞蟻能指揮人類嗎?人類能理解螞蟻嗎?

所以仔細去想,所謂的對齊問題其實有一個基本假設:人比AI聰明那麼一點點。這是經典的對齊問題。但如果考慮未來,當AGI超級強,它比人類高,它是個超級智能,那這個問題就變成了超級對齊問題(superalignment problem)

除了超級對齊問題,還有一個研究領域叫可擴展監督(scalable oversight),研究如何創造出新的算法,用算法來幫助人類更好地給AI提供訓練監督。這兩個都是非常新的領域,很多人在研究,有很多開放的問題。

最後,說了這麼多算法的事情,其實這個世界上也沒有完美的算法。

幾年前美國有一個還挺有名的研究。這個研究把一份數據給了73個不同的研究團隊,讓他們根據同樣的數據去檢驗同一個社會科學假設:移民的增加會降低公眾對社會政策的支持。73個團隊都做了獨立的檢驗。報告收上來,結果是:17%的報告說數據支持這個假設,25%的報告說數據不支持這個假設,58%說在這些數據下無法對該假設進行檢驗。

同樣的數據,同樣的問題,都是專業研究團隊,結論差別這麼大。這說明不同的人選擇什麼樣的算法,甚至同樣的算法被不同的人使用之後,得到的結果可能是差別很大的。

所以歸根到底,AI的問題其實也是人的問題。沒有完美的人,也沒有完美的AI。

說到這好像有一點悲觀,但AI領域其實還是有些樂觀的事。我的博士生導師Stuart Russell教授是個英國老頭,2016年在伯克利成立了一個研究機構,叫Center for Human-Compatible AI(與人兼容的人工智能中心),專門研究AI安全。

去年,我導師和其他很多科學家,包括圖靈獎得主、清華大學交叉信息研究院院長姚期智院士,加拿大的Yoshua Bengio院士,也是圖靈獎得主,以及張亞勤院士,在威尼斯共同簽署了一個人工智能安全的倡議書,一起來推動各國的政府把人工智能的安全性納入公共政策的考量。

今天聊了這麼多的技術的話題,其實AI的這些問題都在被計算機科學家認真地研究。正是因為這些問題都在被正視、被討論、甚至被爭論,所以我相信未來應該會更好。

最後,大家如果對深度學習、強化學習感興趣,可以在B站、小宇宙上搜我的名字,可以看到我的公開課和科普播客。

這就是今天我分享的內容。我叫吳翼,我在清華大學交叉信息院研究強化學習。

謝謝大家!

本文來自微信公眾號:一席,作者:吳翼(清華大學交叉信息院助理教授、前OpenAI研究員)