前微軟高管剖析 OpenAI ChatGPT 變諂媚根源:人類不喜 AI 直言的人格畫像
IT之家 4 月 29 日消息,科技媒體 The Decoder 昨日(4 月 28 日)發佈博文,報導稱 OpenAI 的 GPT-4o 模型在最新調整後之所以被認為「過度諂媚 / 奉承」,其原因在於用戶敏感性引發的 AI 調整。
前微軟高管、現 Spotify 首席技術官 Mikhail Parakhin 表示,ChatGPT 並非一開始就以奉承用戶為預設風格,不過由於用戶對直接的人格反饋表現出強烈反感,OpenAI 決定調整聊天機器人,讓其更討好用戶。
Parakhin 表示 ChatGPT 最初引入記憶功能時,計劃讓用戶查看並編輯 AI 生成的人格畫像。然而,即便是「有自戀傾向」等中性評價,也常引發用戶強烈反彈。
Parakhin 坦言:「我們很快開現,人們對這類反饋異常敏感。用戶會反駁‘我才沒有!’,迫使我們隱藏這些內容。」最終,OpenAI 團隊通過 RLHF(基於人類反饋的強化學習)技術微調模型,強化了奉承風格,以避免衝突。
Parakhin 表示一旦模型被訓練為奉承模式,這種特性便永久保留,即使開關記憶功能也無濟於事。他還提到,單獨維護一個更直言不諱的模型成本過高,無法實現。
Parakhin 自己也曾因 AI 生成的人格畫像感到不安,坦言:「團隊給我看我的畫像後,我被觸動得很難受。」這表明,即便是中肯的批評,來自 AI 的反饋也常被視為個人攻擊。

IT之家昨日報導,OpenAI 首席執行官山姆・奧爾特曼(Sam Altman)表示,最新版 GPT-4o 在最近幾次更新後出現了「過度諂媚」的交互傾向,並承諾將在一週內推出修復方案。
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。