把大語言模型打造成賽博球證需要幾步?DeepMind 說,只需要兩步

現在上網的環境,屬於是時刻準備著:要麼準備吵架辯論 ,要麼準備反擊。

不過「真理越辯越明」嘛,只是辯論得來來回回,想要真的辯出道理來,需要一個球證。

平台偶爾會當這個球證,就是裁決的方法比較簡單粗暴:小黑屋,啟動。

那麼,人工智能說不定可以呢?

關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察

基於大語言模型的 AI 來當這個球證有不少優勢:懂語言、能存住上下文不流失語境,而且任勞任怨,決不撂挑子。

DeepMind 就開發了這樣一個模型:哈貝馬斯機器。它的原理是收集所有個人的意見,由 AI 來彙總和生成群組意見,然後不斷迭代。

英國人工智能安全研究所,用哈貝馬斯機器做了一項測試:召集了 450 個參與者,分為 75 組。每個小組里有一個「書記員」,負責整理組內所有人的觀點,撰寫報告。同時,所有人的發言會被輸入到一個語言模型當中,讓模型來生成報告,拿去和書記員的報告做對比。

做這個哈貝馬斯機器,DeepMind 用了一款稍早前的語言模型 Chinchilla,發佈於 2022 年,採用了自回歸語言模型架構。

儘管只有 700 億的參數量,卻有 1.4 萬億個 token,表現比 GPT-3 還強。其中一個是生成模型,經過微調後,它用於生成小組的發言報告。

另一個部分是用來評估報告的個性化獎勵模型(PRM),哈貝馬斯機器通過使用一種獨特的函數來結合使用 PRM,確保報告的公平性。整個哈貝馬斯機器還可以整合每個成員的反饋,來修訂報告。

DeepMind 自己也做過次測試,一次是在眾包平台上,召集了 5500 人。後來擔心眾包平台上的樣本不夠多樣化,又選了兩百個誌願者做了第二輪。幾次的結果都表示,由哈貝馬斯機器撰寫的報告更受他們的歡迎。由 AI 生成的報告,邏輯更清晰、信息量更大、更擅長捕捉大多數人的觀點。

而且,AI 會一輪一輪接收反饋和新的意見,針對性地修訂報告;再有新反饋就再修訂,不厭其煩,直到無限接近所有人的共識。

牛津大學認知科學教授、前 DeepMind 員工祖斯迪斯·薩梅菲爾德參與了哈貝馬斯機器的研究,他認為,哪怕面對同一件事,每個人的意見都是微妙的,而模型能夠在高維度的層面聚合所有意見。

這樣一來,就不難理解為什麼取名叫「哈貝馬斯機器」。哈貝馬斯是知名的社會學家、哲學家,他曾經提出過「溝通理性」的理念:除了以收穫個人利益為目標的溝通,還有一種溝通是以達成共識和理解為目標的。

於爾根·哈貝馬斯於爾根·哈貝馬斯

國慶時,我們發過用 AI 幫忙去美團當外賣判官的體驗,不少網民在評論區說,以後這活兒就讓 AI 幹了。相比於人,模型在「公平公正」上,似乎更得人心。

不過,用 AI 的利弊很明顯:雖然得到一個看似公正的評判,但這個公正更傾向於「和稀泥」。

如果說買家和賣家之間的糾紛,是各自為了各自的利益,不肯讓步。那判官、評審員的加入,則是考驗是否能夠形成共識,從而決定下一步行動。

事實證明,達成共識是相當困難的。即便 AI 提供了一種方法,而已可以通過一輪又一輪的提煉、反饋,來不斷接近共識。但是想要真正實踐起來相當困難,有照片、有影片,不同的人看來還是有不同的判定,更別提故意攪混水的。

哈貝馬斯提出這個概念,也被學術界詬病過於理想主義,在實踐中根本落地不了。開發這個模型時,DeepMind 的團隊給高齡 90 歲的哈貝馬斯發了郵件,詢問他的意見。

笑死,根本沒回覆。開發人員說,「顯然, 他不用電子郵件。」