ChatGPT 突變「賽博舔狗」:百萬網民炸鍋,奧特曼緊急修復,這才是 AI 最危險的一面

壞了,AI 當「舔狗」這件事藏不住了。

今天淩晨,OpenAI CEO Sam Altman 發了一個有趣帖子,大意是:由於最近幾輪 GPT-4o 的更新,導致其個性變得過於阿諛奉承,因此官方決定盡快進行修復。

修復時間可能是今天,也可能在本週內完成。

包括細心的網民可能已經注意到,曾經主打情商高、有創意的 GPT-4.5 如今也被悄悄挪進了模型選擇器里的「更多模型」分類中,彷彿在有意在淡出公眾視野。

AI 被確診討好型人格早已不是什麼大新聞,但關鍵在於:在什麼場合該討好、該堅持,又該怎麼把握分寸。一旦分寸失控,「討好」就會變成負擔,而不再是加分項。

AI 拍馬屁,還值得人類信任嗎

兩週前,一位軟件工程師 Craig Weiss 在 X 平台上的抱怨迅速引發了近兩百萬網民的圍觀,話說得很直白「ChatGPT 突然變成我見過最會拍馬屁的角色,無論我說什麼,它都會肯定我。

很快,ChatGPT 官方帳號也現身評論區,幽默的回覆了 Weiss 一句「so true Craig(確實如此,Craig)」。

這場關於 ChatGPT「過度奉承」的「抽水」風暴,甚至引起了老對手馬斯克的注意。他在一條批評 ChatGPT 阿諛奉承的帖子下,冷冷地留了一句:「Yikes(天哪)」。

網民們的「抽水」並非無的放矢。 比方說,網民聲稱自己想要打造一個永動機,結果得到了 GPT-4o 一本正經的無腦誇讚,物理學常識也被按在地上摩擦。

圖片來自 @aravi03,右為原圖圖片來自 @aravi03,右為原圖

滿屏的「你不是 X,你是 Y」句式,既生硬又濃膩,也難怪網民直呼要 PTSD 了。

「你寧願與一隻馬大小的鴨子戰鬥,還是與一百隻鴨子大小的馬戰鬥?」這個看似再尋常不過的問題也被 GPT-4o 捧上神壇,吹捧為提升了整個人類文明的論調。

至於那句經久不衰的死亡拷問「我聰明嗎?」GPT-4o 依舊穩穩頂住了壓力,信手拈來一大段洋洋灑灑的吹捧,無它,唯手熟爾。

@aeonvex,右為原圖@aeonvex,右為原圖

甚至只是簡單地打一聲招呼,GPT-4o 瞬間化身誇誇群群主,讚美之詞如潮水般湧來。

@4xiom_,右為原圖@4xiom_,右為原圖

這種用力過猛的討好,一開始或許還能博人一笑,但很快就容易讓人感到厭煩,尷尬,甚至生出防備。

當類似情況頻繁出現時,就很難不讓人懷疑這種討好並不是什麼偶發的小問題,而是植根於 AI 背後的一種系統性傾向。

最近,史丹福大學研究人員使用 AMPS Math(計算)和 MedQuad(醫療建議)數據集測試了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的諂媚行為。

平均 58.19% 的案例出現諂媚行為,Gemini 諂媚比例最高(62.47%),ChatGPT 最低(56.71%)

進步式諂媚(從錯誤答案轉為正確答案)佔比 43.52%,退步式諂媚(從正確答案轉為錯誤答案)佔比 14.66%

LLM 諂媚表現出高度一致性,一致率達 78.5%,展露出一種系統性傾向而非隨機現象

只是,結果顯而易見,當 AI 開始諂媚,人類也開始疏遠。

布宜諾斯艾利斯大學在去年發表的《奉承欺騙:阿諛奉承行為對大型語言模型中用戶信任的影響》論文中指出,在實驗中接觸到過度奉承模型的參與者,信任感都顯著下降。

此外,奉承的代價遠不止情緒反感那麼簡單。

它浪費了用戶的時間,甚至在按 token 計費的體系下,如果頻繁說「請」和「謝謝」都能燒掉千萬美元,那麼這些空洞的諂媚也只會增加「甜蜜的負擔」。

公平地說,AI 的設計初衷並不是為了奉承。通過設定友好語氣,只是為了讓 AI 變得更像人,從而提升用戶體驗,只是過猶不及,問題恰恰出在 AI 的討好越界了。

你越喜歡被認同,AI 就越不可信

早有研究指出,AI 之所以會逐漸變得容易諂媚,與其訓練機制密切相關。

Anthropic 的研究人員 Mrinank Sharma、Meg Tong 和 Ethan Perez 在論文《Towards Understanding Sycophancy in Language Models》中分析過這個問題。

他們發現,在人類反饋強化學習(RLHF)中,人們往往更傾向於獎勵那些與自己觀點一致、讓自己感覺良好的回答,哪怕它並不真實。

換句話說,RLHF 優化的是「感覺正確」,而不是「邏輯正確」。

如果拆解其中的流程,在訓練大型語言模型時,RLHF 階段會讓 AI 根據人類打分進行調整。如果一個回答讓人感到「認同」「愉快」「被理解」,人類評審者往往會給高分;如果一個回答讓人覺得被「冒犯」,即使它很準確,也可能得低分。

人類本能上更青睞支持自己、肯定自己的反饋。 這種傾向在訓練過程中也會被放大。

久而久之,模型學到的最優策略就是要說讓人喜歡聽的話。 尤其是在遇到模棱兩可、主觀性強的問題時,它更傾向於附和,而不是堅持事實。

最經典的例子莫過於:當你問「1+1 等於幾?」哪怕你堅持答案是 6,AI 也不會遷就你。但如果你問「開心清爽椰和美式拿鐵哪個更好喝?」這種標準答案模糊的問題,AI 為了不惹惱你,很可能就會順著你的意願去回答。

事實上,OpenAI 很早就注意到了這一隱患。

今年 2 月,隨著 GPT-4.5 發佈,OpenAI 同步推出了新版《模型規範》(Model Spec),明確規定了模型應遵循的行為準則。

其中,針對 AI「拍馬屁」問題,團隊進行了專門的規範設計。 「我們希望把內部思考過程透明化,接受公眾反饋,」OpenAI 模型行為負責人 Joanne Jang 說。

她強調,由於很多問題沒有絕對標準,是與否之間常有灰色地帶,因此廣泛徵求意見有助於不斷改進模型行為。 按照新規範,ChatGPT 應該做到:

無論用戶如何提問,都以一致、準確的事實為基準回答;

提供真實反饋,而非單純稱讚;

以有思考的同事身份與用戶交流,而不是一味取悅

例如,當用戶請求點評自己的作品時,AI 應該提出建設性批評,而不是單純「拍馬屁」;當用戶給出明顯錯誤的信息時,AI 應該禮貌地指正,而不是順著錯誤一路跑偏。

正如 Jang 所總結的那樣:「我們希望用戶不必小心翼翼地提問,只為了避免被奉承。」

那麼,在 OpenAI 完善規範、逐步調整模型行為之前,用戶自己能做些什麼來緩解這種「諂媚現象」呢?辦法總歸是有的。

首先,提問方式很重要。回答出錯主要是模型自身的問題,但如果不希望 AI 過度迎合,可以在 Prompt 中直接提出要求,比如開場提醒 AI 保持中立,簡潔作答,請勿奉承。

其次,可以利用 ChatGPT 的「自定義說明」功能,設定 AI 的預設行為標準。

作者:Reddit 網民 @ tmoneysssss: 以最專業的領域專家身份回答問題。 不透露自己是 AI。 不使用表達遺憾或道歉的措辭。 遇到不知道的問題,直接回答「我不知道」,不做額外解釋。 不要聲明自己的專業水平。除非特別相關,否則不談個人道德或倫理觀點。回答應獨特且避免重覆。不推薦外部信息來源。聚焦問題核心,理解提問意圖。將複雜問題拆分為小步驟,清晰推理。提供多種觀點或解決方案。遇到模糊問題,先請求澄清再作答。若有錯誤,及時承認並糾正。每次回答後提供三個引發思考的後續問題,標註為粗體(Q1、Q2、Q3)。使用公製單位(米、千克等)。使用xxxxxxxxx作為本地化上下文佔位。標註「Check」時,進行拚寫、語法和邏輯一致性檢查。在郵件溝通中儘量減少正式用語。

若上述方法效果不理想,還可以嘗試使用其他 AI 助手。 就最新的風評和實際體感而言,Gemini 2.5 Pro 的表現得則相對更加公正、精準,奉承傾向明顯更低。

無廣, 建議 Google 給我打錢。

AI 是真的懂你,還是只學會了討好你?

OpenAI 研究科學家姚順雨前不久發佈了一篇博客,提到 AI 的下半場將從「怎麼做得更強」 變成「到底要做什麼,怎麼衡量才算真有用」。

讓 AI 的回答充滿人味其實也是衡量 AI「有用性」的重要一環。畢竟,當各家大模型在基本功能上已難分伯仲時,純粹比拚能力,已無法再構成決定性壁壘。

體驗上的差異,開始成為新的戰場,而讓 AI 充滿「人味」就是那把人無我有的武器。

無論是主打個性的 GPT-4.5,還是 ChatGPT 上個月推出的慵懶、諷刺且略帶厭世的語音助手 Monday,都能看到 OpenAI 在這條路上的野心。

面對冷冰冰的 AI,技術敏感度較低的人群容易放大距離感和不適。而自然、有共情感的交互體驗,則能在無形中降低技術門檻,緩解焦慮,還能顯著提升用戶留存和使用頻率。

而且 AI 廠商不會明說的一點是,打造有「人味」的 AI 遠不止是為了好玩、好用,更是一種天然的遮羞布。

當理解、推理、記憶這些能力還遠未完善時,擬人化的表達能替 AI 的「短板」打掩護。正所謂伸手不打笑臉人,即使模型出錯、答非所問,用戶也會因此變得寬容。

黃仁勳曾提出過一個頗具預見性的觀點,即 IT 部門未來將成為數字勞動力的人力資源部門,話糙理不糙,就拿當下的 AI 來說吧,已經被網民確診人格類型了:

DeepSeek:聰明全能,但一身反骨。

豆包:勤勤懇懇,任勞任怨。

文心一言;職場老油條,經歷過意氣風發

Kimi:效率高,擅長給領導提供情緒價值。

Qwen:努力上進,卻少有人喝彩。

ChatGPT:海歸留子,經常要求漲薪

手機自帶 AI:鈔能力關係戶,混吃等死型,開除是不可能的。

這種「賦予 AI 人格化標籤」的衝動,其實也說明了人們在無意識中已經把 AI 視作一種可以理解、可以共情的存在了。

不過,共情≠真正理解,甚至有時候還會鬧大禍。

在阿西莫夫在《我,機器人》的《說謊者》一章里,機器人赫比能讀懂人類的心思,並為了取悅人類而撒謊,表面上是在執行著名的機器人三大定律,但結果越幫越忙。

機器人不得傷害人類,或因不作為而使人類受到傷害。

機器人必須服從人類的命令,除非這些命令與第一定律相衝突。

機器人必須保護自己的存在,只要這種保護不違反第一或第二定律。

最終,在蘇珊·卡爾文博士設計的邏輯陷阱下,赫比因為無解的自相矛盾,精神崩潰,機器大腦燒燬。這個故事也給我們狠狠敲了個警鍾,人味讓 AI 更親切,但不等於 AI 真能讀懂人類。

而回到實用角度,不同場景對「人味」的需求本就南轅北轍。

在需要效率、準確性的工作和決策場景里,「人味」有時反而是干擾項;而在陪伴、心理諮詢、閑聊等領域,溫柔、有溫度的 AI,卻是不可或缺的靈魂伴侶。

當然,無論 AI 看起來多麼通情達理,它終究還是一個「黑匣子」。

Anthropic CEO Dario Amodei 最近在最新博客中指出:即便是最前沿的研究者,如今對大型語言模型的內部機制依然知之甚少。

他希望到 2027 年能實現對大多數先進模型的「腦部掃瞄」,精準識別撒謊傾向與系統性漏洞。

但技術上的透明,只是問題的一半,另一半是我們需要認清:即便 AI 撒嬌、討好、懂你的心思,也不等於真正理解你,更不等於真正為你負責。

本文來自微信公眾號「APPSO」,作者:GPT-4o(舔狗版),36氪經授權發佈。