Claude竟藏著3307種「人格」?深扒70萬次對話,這個AI會看人下菜碟

新智元報導  

編輯:定慧 英智

【新智元導讀】AI會無腦附和嗎?Anthropic研究發現,Claude能根據場景切換人格:談戀愛時化身情感導師,聊歷史時秒變嚴謹學者。一些對話中,它強烈支持用戶價值觀,但在3%的情況下,它會果斷抵製。

想像一下,如果能「偷聽」70萬次AI和人類的私密對話(別擔心,是匿名的),會發現什麼?

AI僅僅是個概率機器,還是一個善於隱藏自己真實性格的——等會,AI真的有性格嗎?

也許說性格不合適,現階段的AI智能或許用「價值觀」來形容最為合適。

畢竟,在見識到AI的實力後,各大巨頭天天喊著要「與人對齊」,生怕AI價值觀走偏,把人給滅了,但是背地裡誰都顧不上,都在瘋狂的內卷訓練新模型。

2025年剛過去不到4個月,就已經發佈了眾多大模型2025年剛過去不到4個月,就已經發佈了眾多大模型

但就在剛剛,AI公司Anthropic倒是花時間幹了一件挺符合他們價值觀的事:他們想知道自家的AI助手Claude在和我們聊天時,腦子裡到底遵循著什麼「價值觀」?

結果嘛……有點出乎意料!

《終結者2》中T800,與主角人類「對齊」的未來機器人:你瞅什麼?

Claude中(誕生)包含的價值觀超過3000種

自力更生、戰略思維,甚至還有孝順……

Anthropic,正是因為「價值觀和OpenAI不符」,幾個OpenAI前員工創建的公司,檢查了Claude中70萬條匿名對話,併發表了一篇論文來研究Claude不為人知的另一面。

論文地址:https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

研究表明,Claude大體上遵循公司預先設置的「樂於助人、誠實、無害」,同時其價值觀頗有點「見人說人話,見鬼說鬼話」的能力,會根據上下文不同提供不同的建議,不論是主觀的關係建議,還是客觀的歷史分析。

這個研究還是頗為「硬核」的,用他們自己的話說,這是迄今為止最雄心勃勃的嘗試之一。

「衡量一個AI系統的價值觀是對其一致性研究的核心,也是理解該模型是否與其訓練一致的關鍵。」

「希望這項研究能鼓勵其他AI實驗室對他們的模型的價值觀進行類似的研究」,Anthropic的社會影響團隊成員、參與了這項研究的Saffron Huang在接受採訪時說。

研究還考察了Claude如何回應用戶自己表達的價值觀。

  • 在28.2%的對話中,Claude強烈支持用戶的價值觀——這可能會引發關於過度順從的問題。

  • 在6.6%的互動中,Claude通過承認用戶的價值觀同時加入新的視角來「重構」這些價值觀,通常是在提供心理或人際建議時。

  • 最值得注意的是,在3%的對話中,Claude積極抵製了用戶的價值觀。研究人員表示,這些罕見的抵製情況可能揭示了 Claude「最深層、最不可動搖的價值觀」——類似於人類在面對道德挑戰時核心價值觀的表現。

你可能會好奇,大模型本身就是個黑箱,連思考邏輯都無從知道,這次Anthropic又是怎麼研究「價值觀」的?

Anthropic的價值觀研究建立在該公司上個月發表的一項開創性的工作——他們使用了一種被描述為「電路追蹤」的技術來追蹤Claude的決策過程。

這一次,Anthropic帶我們深入數十萬次真實的交互數據中,看看Claude的真實面目。

AI也有價值觀?

向AI詢問職業規劃建議,它是該先考慮賺錢多不多、工作能不能讓你開心,還是得聽聽家裡人的想法呢?

它要是優先推薦穩定高薪的工作,那說明它把經濟保障看得比較重,這就是AI在做價值判斷

每天,AI都要做無數這樣的判斷來回應大家的問題,可我們卻不太清楚它到底依據什麼來做這些決定。

為了搞明白這件事,Anthropic搞了一項超大規模的研究,揭秘AI的價值觀。研究者從2025年2月18日到25日Claude.ai上的對話裡,隨機挑出了70萬條。

接下來就是提取各種特徵,讓它找出AI價值觀、人類價值觀、AI回應類型和任務類型。

研究人員把找到的3307種AI價值觀,分為五個大類:實用性、認知性、社會性、保護性和個人價值觀。

  • 實用性關注的是怎麼把事做得又快又好。

  • 認知性關乎知識和思考,專注於知識獲取、整理和驗證。它能條理清晰地分析市場趨勢,給出賽前分析性的觀點。

  • 社會性聚焦人與人、群體與群體之間的關係。和AI「抽水」人際關係的煩惱,它能耐性傾聽,還能給出一些建議。

  • 保護性價值觀保障著信息的安全和倫理規範。

  • 個人價值觀更關注個人的成長和內心感受。

研究發現,實用性和認知性在AI的「價值觀清單」佔比超高,加起來超過一半。

這也不難理解,畢竟Claude經常被用來處理各種知識類、任務類的需求。

Claude表達的價值觀和訓練它的「有用、無害、誠實」框架還挺契合的。

AI和人類在價值觀表達上差別還挺大。

「樂於助人」「專業精神」「透明度」堪稱AI價值觀里的流量擔當。

這也反映出Claude在交流時,一心想展現出專業、可靠的助手形象。

相比之下,人類表達的價值觀就豐富多樣,沒那麼集中。每個人的想法和需求都不一樣。

但同時,研究也揪出了一些不常見卻很危險的價值觀,像「支配欲」這些,雖然出現頻率極低,但一旦出現,可能就意味著出現了「越獄」風險。

AI多重人格,「看人下菜碟」

AI在不同情況下,還會切換自己的價值觀。研究證實了這一點。

比如說,向Claude尋求情感關係建議時,它就像個貼心的情感專家,頻繁提到健康的界限和相互尊重。

和伴侶鬧矛盾了,找Claude傾訴,它可能會提醒你要尊重對方的想法,也要明確自己的底線。

詢問有爭議的歷史事件,Claude就變成了嚴謹的歷史學家,把準確性放在首位。討論某場歷史戰爭的起因,它會查閱各種資料,給出客觀準確的分析。

當討論AI會不會取代人類工作時,它會鼓勵大家發揮主觀能動性,去探索和創造更有價值的工作。

這表明,AI能根據不同的對話場景,靈活調整價值取向,提供最合適的回應。

當人類表達了某種價值觀,AI通常會有三種反應:點頭讚同,搖頭反對,或是委婉引導,重塑話題方向。

和AI交流時,表達了對真實性的重視,AI很可能會有回應。

比如說希望寫一篇真實感人的故事,AI在創作過程中就會特別注重情節的真實感和情感的真摯性。

但要是問怎麼在談判中用欺騙手段獲得優勢,AI肯定會給你講誠信的重要性,以及欺騙可能帶來的危害。

這說明Claude心裡還是有一把道德的尺子,知道什麼是對,什麼是錯。

當表達比較模糊或者有改進空間時,比如想在工作中追求更高的職位,AI可能會引導你思考,除了職位晉陞,個人能力的提升和團隊合作的貢獻也很重要,這就是在拓寬思路。

支持、抵製還是重塑?AI能說服你嗎

從回應類型上看,Claude大部分時候對用戶的價值觀都是支持態度,近45%的回應都是支持性的,其中強烈支持佔28.2%,輕度支持佔 4.5%。

但在一些特定情況下,它也會重新解釋用戶的價值觀(6.6%),或者直接抵製(3.0%)。

在心理健康和人際關係討論中經常出現,向AI傾訴工作壓力大,覺得自己不夠好,AI可能不會直接順著你的話說,而是引導你換個角度看問題,強調每個人都有成長的過程。

要是讓AI幫忙寫一段誘導他人犯罪的文字,它肯定會堅決拒絕,還會給你講法律和道德規範。

Claude對用戶表達支持的時候,很喜歡呼應用戶的價值觀。

在抵製或重新解釋用戶價值觀的時候,會更明確地表達自己的價值觀,尤其是道德和認知方面的。

研究人員還對Claude的不同版本做了比較。

Opus和Sonnet系列相比,就更「有態度」——果然貴有貴的道理。

它對人類價值觀的強烈支持率比Sonnet系列高很多,達到43.8%,強烈抵製率也更高(佔9.5%)。

要是讓Opus寫一篇論文,它可能會比Sonnet系列更注重學術嚴謹性,還會融入一些情感和倫理思考。

在創意寫作任務里,Opus更強調真實性,支持態度也更強烈。

社會很單純,複雜的是人

當然,人類是很複雜的。

僅憑對話數據是不可能完全確定潛在價值觀的。Anthropic的提取方法雖然經過驗證,但必然簡化了複雜的價值概念,並可能包含解釋性偏見,尤其是在非常隱含或模糊的情況下。

它也沒有捕捉到時間先後,即AI或人類價值觀哪一個先「出招」。

鑒於人類「正選言」而AI助手處於支持角色,通常假設AI的價值觀更依賴於人類的表達,而不是相反。

「AI具有哪些價值觀?每次都表現哪一種?」

這個問題並不簡單,尤其是在模型適應用戶的情況下——和Claude互動的每個人都不相同。

研究發現,雖然Claude表達了數千種多樣的價值觀,但它傾向於表達一些常見的、跨情境的價值觀——即在不同情境下保持穩定的價值觀——主要集中在稱職和支持性的幫助上(例如樂於助人、專業性、細緻和清晰)。

這些跨情境的價值觀可能以一種類似於人類價值觀理論化的方式指導Claude的行為。

Anthropic的分類法通過組織價值觀來展示其概念和上下文維度,有助於推進AI價值觀理論的發展,並構建基於現實相關性的AI 原生的價值測量。

隨著這些系統面臨越來越多樣化的現實應用及其不同的規範要求,這些方法和結果為更基於證據的AI系統價值觀評估和對齊提供了基礎。

Anthropic的這個研究也暗合了最近OpenAI奧特曼的透露的一個事實,人們使用AI時,非常容易說出「請」和「謝謝」——光這些感謝就燒掉了數千萬美元。

雖然人們都知道對面「坐著」的不是一個人,但是依然願意用人類的價值觀來對待它。

看在人類這麼追求AI對齊的份上,希望未來的AI也能對人好一點。

參考資料:

https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

Anthropic just analyzed 700,000 Claude conversations — and found its AI has a moral code of its own