汽車上的《Her》:模型竟然想做個人了,甩掉機械感,讓靈魂有趣,來自吉利的全新嘗試

允中 發自 凹非寺

量子位 | 公眾號 QbitAI

今天,如果你身邊有這樣一個對話大模型,它就像你身邊的一個朋友,快言快語,風趣幽默,既會比喻,又會自嘲,偶爾跟你唱反調,你跟它的聊天慾望會不會更強一些呢?

直接來看看實際表現:

類似的設計靈感來源於電影《Her》裡面的 Samantha——作為關於AI的電影,它為我們構建了一個完美的AI智能體,能夠幫主人公解決日常問題的能力,同時它又有個性、有感情、有意識;它不像一個機器,而是像一個人。而在大模型生態爆炸式發展的今天,基於當前的自然語言大模型(LLM)的能力,使得建構類似的高度擬人化智能體已經成為可能。

作為汽車行業的領軍者,吉利不僅在汽車領域持續創新,還將目標瞄準在了這一切入點——將自家的星睿AI大模型在「擬人化」對話和情感陪伴場景進行了落地,主打真實對話,營造座艙「氛圍感」。

讓每一次對話,皆為跨越科技與生活邊界的美妙邂逅;每一次出行,俱是與智能科技深度交融的奇妙之旅。

星睿AI大模型能否真正提供逼真的社交體驗?直接上手體驗一把。

座艙大模型實測

我懷疑TA半夜偷偷背梗!

完全不按套路出牌,神金,害我笑了一下。

脫髮這種成長的煩惱,本以為會引發共鳴,卻被機智地引導到了‘少即是多’的哲學思考上。

工作完成了嗎:囉嗦

新晉打工人嘴替,上過班的的人都說好。「犇驫」精神狀態被TA拿捏的死死的,「班味」這東西一旦染上。就再也去不掉了。

可以說打工人狠狠被觸動了,班味是「冰美式的苦味」、「領導畫的餅味」、「同事甩的鍋味「。

ta竟然還會「陰陽」?

好喜歡甲方這種琢磨不透的感覺,簡直是白日夢想家啊。要不是TA是個AI,我都懷疑TA天天跟甲方對接,陰陽起來簡直毫不費力,腦洞比宇宙黑洞還要深邃,簡直佩服的五體投地。

拒絕端水話術

當前主流大模型(如GPT-4*、Llama等)預設遵循人類(human)與機器助手(assistant)的對話範式,作為嚴謹冷靜的助手,模板化、公式化是它的標籤,面對生活化的聊天場景,就顯得「缺少溫度」、「沒有靈魂」。

而對於星睿AI大模型,有趣只是它的一部分,不止於聊天,全方位兼顧,才是根本。從換位思考再到感同身受,先溝通情緒再解決問題,把每一句漫不經心的提及都放在心上,讓每一個用戶獲得真實的情感陪伴,讓每一個回答都充滿深層次的情緒支持。

對於相同問題的模型回答 ,星睿AI大模型有一定的共情能力,具備更強的交互性,不會只是簡單的回答用戶的問題,而是給予人足夠的寬慰和關心,給出一些恰當的建議。

創意玩法——再幽默「億」點點

傳統大模型一般會保持一個統一風格,雖然可以通過提示詞來提供不同的風格建議,但這種風格切換的效果會有瓶頸;如果針對不同風格的需求分別進行模型定製化訓練,相關的成本又比較大。

那麼有沒有一種大模型可以提供風格的操控開關,允許用戶實時控制大模型的回答風格呢?通過向用戶開放一些風格切換的「咒語」,吉利AI實驗室也做出了相應嘗試:

控制幽默度

控制情感強度

當然,理想的AI產品應該是根據用戶的喜好定製,每一個用戶的TA都應該不盡相同。

不得不說,這考慮的確實太全面了,從‘感到冒犯’到‘深刻共鳴’,一鍵切換,星睿AI大模型打造了一款真正貼心的AI助手。

TA們是怎麼做到的?

吉利AI實驗室綜合了當前大模型與角色扮演、記憶系統、策略決策、情感增強和交互式學習等場景結合的研究思路,模仿人類與人類、人類與環境之間的交互學習過程,構建一個有聊天技巧和情感互動的對話智能體。其中部分核心模塊包括:

  • 用戶狀態識別:每次交互中,星睿AI大模型會首先識別用戶的當前意圖和情緒,作為後續決策的隱變量狀態。

  • 人類策略:與單純積累大規模數據然後進行模仿學習的傳統訓練方式不同,星睿AI大模型首先將人類的領域知識抽像成不同的策略庫、技巧庫,然後在交互過程中讓智能體先決定要使用的策略或技巧,再生成具體的回覆內容。通過這種將問題分層、切割的方式,實現了複雜決策問題簡單化,也符合當前流行的快(System 1)—慢(System 2)思考範式。

  • 記憶模塊:星睿AI大模型將歷史對話數據構建為結構化的記憶數據庫,並分為兩類:與當前用戶相關的專屬記憶,和與整個環境交互得到的群體記憶;最終通過對群體記憶學習人類經驗的共性,而針對單體記憶來實現對用戶個性喜好的進一步對齊。

  • 情感增強:基於用戶情緒和自身性格設定,來決定智能體自身情感變化,最終對錶達內容進行修正。與常見的基於共情策略建構的情感對話系統不同,星睿AI大模型考慮了自身性格對情感表現的影響,例如用戶在表達悲傷的話題時,「冷漠叛逆」的智能體不是直接共情,而是會表現出幸災樂禍的情感,更符合性格設定。

模型評測——想知道TA有多想「做個人」?

光看案例容易一葉障目,吉利AI實驗室還進行了不同角度的評測,以便更科學的表徵模型的擬人化表現。

在對話效果層面打擂台

若想客觀評價對話效果,最直接的做法就是讓自家的星睿AI大模型與其他產品進行聊天PK,再進行人工盲測。這裏吉利AI實驗室也借鑒了emohaa的評測方法,不僅對比了業界標杆級產品GPT-4,也對比了GPT-4加自家擬人化prompt(GPT-4+prompt),也即「高仿版星睿AI大模型」的效果,從而更科學的表徵核心方案本身帶來的效果提升。與傳統注重通用任務能力的評測思路不同,這裏主要列舉了自然度、聊天技巧、對話質量等與聊天體感相關的維度。下圖是星睿AI大模型與GPT-4、高仿版星睿AI大模型的勝率結果,星睿AI大模型優勢明顯。

情商與個性也可以量化

吉利AI實驗室也參考了國內外一些著名的評測方案,比如著名的圖靈測試(是否可以讓聊天夥伴能夠在未知情況下無法區分對方是真人還是AI),以及能夠評價模型情商(EI)和情感強度(Sentiment Intensity)的SECEU測試。SECEU以500多名人類數據作為基準,並覆蓋40多個情感場景,能夠衡量模型情感強度與人類的相似度(越低越好),以及計算模型的情商得分(越高越好)。

通過上圖的測試結果,可以看到星睿AI大模型在圖靈測試(Turing Test)中明顯強於Baichuan2、Qwen2、GPT4和GPT-4+prompt,並已接近於人類水平。

而在SECEU測試中,星睿AI大模型也同時在中文(cn)和英文(en)場景中取得了幾個模型里最好的成績。

對比三個模型在心理學領域其他一些測試,比如大五人格、柏斯共情、情緒自控等量表的測試結果,也可以發現星睿AI大模型相比於GPT4+prompt,更外向和開放,且對情感的控制能力上有了明顯提升。

用語言學來看模型回答

吉利AI實驗室還考慮了更加本土化的評測方案:由真人自然交談得到的文本,背後隱藏著語言學特徵的分佈規律,而特徵分佈頻率更接近於人類樣本分佈的模型也自然更符合人類用語習慣。通過參考不同的語言學研究文獻,這些語言學特徵包括音節(單音節VS雙音節)、詞彙等級(甲、乙、丙、丁)、標點、兒化詞、實詞與虛詞等。

結果也顯示,星睿AI大模型在絕大多數指標的統計學分佈與人類樣本更為接近,因此提供了更貼近口語化的表達、更自然的對話方式。

原來模型竟然是「寶劍哥」

最後,吉利AI實驗室還為自家模型做了流行的MBTI人格化測試。相較於GPT-4的INTJ,星睿AI大模型則是又被稱為「主人公人格」的ENFJ。從i人的」話太多不是我風格「,到e人的「我想跟你多嘮嘮」;從冷靜分析到注重感受與共情,更強的J人屬性,相同的思考方式,這才是想要的主人公。

ENFJ人格展現出卓越的領導力、敏銳的直覺,以及強烈的同理心與獨特魅力,既自信從容,又溫暖健談。像小太陽一樣照亮他人,ENFJ的愛都藏在細節里。熱情坦誠,灌輸信念,更加富有人格魅力才是真的星睿AI大模型。

不僅僅只是「聊天」

在科技的浪潮中,星睿AI大模型不僅是一款產品的誕生,更是一次思維與實踐的革新之旅。將AI的應用場景從任務執行拓展到情感互動中,幫助用戶在駕駛中找到更多的陪伴感和滿足感,實現更高智能的人車交互。

星睿AI大模型即將搭載某新能源車型,屆時也可以在車主APP中直接體驗,相關論文也將在近期發佈。

當然,通往超級人工智能的道路仍然漫長。首先,研究者們仍然需要進一步挖掘和塑造模型的內在人格,避免上述的案例表現不是簡單的模仿和記憶,而是是根植於內心思考的結果;其次,構建一個擬人化性格、甚至有嘲諷和叛逆表現的人工智能體,某種意義上與AI的安全價值觀對齊工作存在衝突,如何讓AI像人類一樣充滿個性和趣味,又避免它們對人類產生威脅,是一個艱深而持續的課題。

在科技與夢想交織的前沿陣地,吉利始終以創新為驅動,致力於探索智能出行的新紀元,為吉利汽車的科技進步提供可持續助力。

參考鏈接:

[1] https://thecinemaholic.com/her-ending-explained/

[2] https://www.tsinghua.edu.cn/en/info/1418/11900.htm

[3] https://www.16personalities.com/personality-types/

[4] https://bigfive-test.com/

[5] https://psychology-tools.com/test/empathy-quotient

*本文系量子位獲授權刊載,觀點僅為作者所有。