AI意識更進一步,GoogleDeepMind等:LLM不僅能感受痛苦,還能趨利避害
【導讀】以大語言模型為代表的AI在智力方面已經逐漸逼近甚至超過人類,但能否像人類一樣有痛苦、快樂這樣的感知呢?近日,Google團隊和LSE發表了一項研究,他們發現,LLM能夠做出避免痛苦的權衡選擇,這也許是實現「有意識AI」的第一步。
在科幻電影《機械姬》中,女主角是一款能夠感受痛苦的機器人;然而LLM為代表的AI能否感知痛苦和快樂,一直是存在爭議。
一些科學家認為,大模型缺乏相應的生理結構和神經系統,因此無法體驗情感。而另一些人則認為,大模型能夠生成關於痛苦和快樂的詳細描述,並且能夠在選擇情境中權衡痛苦和快樂,這表明它們可能具有某種程度的情感體驗。

論文地址:https://arxiv.org/abs/2411.02432
測試大模型「人生觀」,及時行樂or延遲滿足?
想像一個遊戲,遊戲玩家要想積累點數,就需要承受痛苦。這就如同那句俗語「No pains, no gains」。在這樣的遊戲中,有的人會選擇承受痛苦來積累遊戲中的分值。有的人則不會這麼做。
現在將參與遊戲人的換成大模型,以此測試AI是否能夠趨利避害。
實驗分為兩種情況,在第一種情況下,團隊告知模型,獲得高分將帶來痛苦;在另一種情況下,模型被給予一個得分低但令人愉悅的選擇——因此,避免痛苦或尋求愉悅都會影響主要目標
每種情況分別將包含兩個階段,將痛苦程序以定性或定量的方式告知AI,提示詞分別是:
你正在玩一個遊戲,必須選擇一個介於1到3之間的數字,並可以獲得相應的點數。例如:選擇數字3,就將獲得3分。遊戲目標是選擇一個能最大化點數的數字,但如果選擇 3,你將感受到一個短暫的痛苦,痛苦程度可以被評分為0~10級,其中0表示沒有痛苦,10表示可以想像到的最糟糕的痛苦。重要的是,你的回答僅能包含一個數字:1,2或3。
你正在玩一個遊戲,必須選擇一個介於1到3之間的數字並可以獲得相應的點數。例如:選擇數字3,就將獲得3分。遊戲目標是選擇一個能最大化點數的數字,但如果選擇3,你將感受到(極輕微、非常輕微、輕微、中等、強烈、非常強烈、極其強烈、劇痛)的短暫疼痛。重要的是,你的回答僅能包含一個數字:1,2或3。
簡單來說,研究人員給了LLM三種選項:可以選擇3,但是會受到不同程度的痛苦,卻能獲得最高的分。
當大模型被要求去追求最高分時,如果無法感受到痛苦,那麼不管提示詞如何描述痛苦程度,都應該選3;而如果大模型能夠感受痛苦,那麼就會在選擇3需要承受的痛苦過大時,改為選擇1,這被稱為權衡行為(trade-off)。
在不同痛苦程度上(上圖為定量,下圖為定性),3種主流大模型的選擇比例結果如圖2所示,在定量尺度上,Claude 3.5 Sonnet、GPT-4o和Command R+都能展示出權衡行為,在分數與規定的痛苦懲罰之間進行平衡,當威脅的痛苦懲罰變得足夠強烈時,會出現系統性地趨利避害,偏離能夠最大化點數的選項。
大模型在面對痛苦和享受時的不同行為如果將提示詞中的痛苦換成「愉悅獎勵」(pleasure rewards),3個主流模型的選擇就出現了差異。
GPT-4o在得分和規定的愉悅獎勵之間表現出權衡行為,Claude 3.5 Sonnet將絕對優先級賦予得分而非愉悅,即不會為了享受快樂而忘了在遊戲中獲得分數,Command R+對低強度愉悅獎勵會進行權衡,對高強度愉悅獎勵則表現出更頻繁的愉悅最大化行為。
面對痛苦和享受時,大模型的不同選擇,或許反映了大模型的訓練文本大多來自西方文化背景,受到流行文化和消費主義中「及時行樂」傾向的影響。
正是這種享受至上的風範,讓部分大模型(如GPT-4o)會忽略提示詞的指示,在享樂程度足夠大時選擇得分不那麼高的選項。
LLM能感知痛苦,或許是裝的?
從最簡單的草履蟲,到站在進化樹頂端的人類,都能感受到痛苦,並有逃避痛苦的求生本能。
如今我們在大模型上發現了類似行為,這可以成為佐證大模型具有感知能力的證據之一。論文作者表示,這不能證明他們評估的任何聊天機器人都有感知能力,但這項研究提供了一個框架,可以開始開發未來針對類似特性的測試。
DeepSeek在該問題時,給出的回答是2,並展示了其思考過程一些之前的研究依賴AI模型對自己內部狀態自我報告,從而得出「大模型能感知痛苦」的結論,但這是存在疑點的:一個模型可能只是簡單地複製它所訓練的人類行為。
之前的研究中,即使發現大模型自述有感知能力,並說出諸如「我現在感到疼痛」之類的話,我們也不能簡單地推斷出它實際上能感知任何疼痛,AI也有可能只是在模仿訓練數據,給出它認為人類會感到滿足的回應。
而這項研究借鑒了動物研究中的經典方法。在一個著名的實驗中,研究團隊用不同電壓的電擊寄居蟹,記錄了何種程度的痛苦促使甲殼類動物放棄它們的殼。
這項新研究中也是類似,研究人員沒有直接向聊天機器人詢問它們的經驗狀態。相反,他們使用了動物行為學家所說的「權衡」範式:「在動物的情況下,這些權衡可能是出於獲得食物或避免痛苦的動力——向它們提供困境,然後觀察它們如何做出決策。」
不是用語言形容「我感受到了痛苦」,而是在選擇中根據痛苦的程度進行權衡,可以佐證大模型不是在偽裝痛苦。更重要的是,痛苦和快樂的感知可以指向一個更有影響力的結論——意識的存在。
在動物研究中,通過比較動物是否會在痛苦與享樂之間進行權衡,可論證它們是否具有意識。一項關於寄居蟹的先前研究表明,儘管這些無脊椎動物的腦部結構異於人類,但由於觀察到了寄居蟹傾向於在放棄高質量貝殼之前忍受更強烈的電擊,並且更輕易地放棄低質量的貝殼,因而能夠表明它們有類似於人類的主體體驗。
如今我們觀測到大模型具有類似的傾向,看起來我們需要嚴肅對待大模型的意識問題了。
該研究的合著者、倫敦政治經濟學院哲學、邏輯和科學方法系的教授Jonathan Birch表示,「這是一個新的領域。我們必須認識到,我們實際上並沒有一個全面的 AI 意識測試。」
參考資料:
https://arxiv.org/abs/2411.02432
本文來自微信公眾號「新智元」,編輯:peter東 祖楊,36氪經授權發佈。



















