把大語言模型打造成賽博球證需要幾步？DeepMind 說，只需要兩步

10月28日 17:58 新浪網 news-china-auto-hilite

現在上網的環境，屬於是時刻準備著：要麼準備吵架辯論，要麼準備反擊。

不過「真理越辯越明」嘛，只是辯論得來來回回，想要真的辯出道理來，需要一個球證。

平台偶爾會當這個球證，就是裁決的方法比較簡單粗暴：小黑屋，啟動。

那麼，人工智能說不定可以呢？

關注 AI 第一新媒體，率先獲取 AI 前沿資訊和洞察

基於大語言模型的 AI 來當這個球證有不少優勢：懂語言、能存住上下文不流失語境，而且任勞任怨，決不撂挑子。

DeepMind 就開發了這樣一個模型：哈貝馬斯機器。它的原理是收集所有個人的意見，由 AI 來彙總和生成群組意見，然後不斷迭代。

英國人工智能安全研究所，用哈貝馬斯機器做了一項測試：召集了 450 個參與者，分為 75 組。每個小組里有一個「書記員」，負責整理組內所有人的觀點，撰寫報告。同時，所有人的發言會被輸入到一個語言模型當中，讓模型來生成報告，拿去和書記員的報告做對比。

做這個哈貝馬斯機器，DeepMind 用了一款稍早前的語言模型 Chinchilla，發佈於 2022 年，採用了自回歸語言模型架構。

儘管只有 700 億的參數量，卻有 1.4 萬億個 token，表現比 GPT-3 還強。其中一個是生成模型，經過微調後，它用於生成小組的發言報告。

另一個部分是用來評估報告的個性化獎勵模型（PRM），哈貝馬斯機器通過使用一種獨特的函數來結合使用 PRM，確保報告的公平性。整個哈貝馬斯機器還可以整合每個成員的反饋，來修訂報告。

DeepMind 自己也做過次測試，一次是在眾包平台上，召集了 5500 人。後來擔心眾包平台上的樣本不夠多樣化，又選了兩百個誌願者做了第二輪。幾次的結果都表示，由哈貝馬斯機器撰寫的報告更受他們的歡迎。由 AI 生成的報告，邏輯更清晰、信息量更大、更擅長捕捉大多數人的觀點。

而且，AI 會一輪一輪接收反饋和新的意見，針對性地修訂報告；再有新反饋就再修訂，不厭其煩，直到無限接近所有人的共識。

牛津大學認知科學教授、前 DeepMind 員工祖斯迪斯·薩梅菲爾德參與了哈貝馬斯機器的研究，他認為，哪怕面對同一件事，每個人的意見都是微妙的，而模型能夠在高維度的層面聚合所有意見。

這樣一來，就不難理解為什麼取名叫「哈貝馬斯機器」。哈貝馬斯是知名的社會學家、哲學家，他曾經提出過「溝通理性」的理念：除了以收穫個人利益為目標的溝通，還有一種溝通是以達成共識和理解為目標的。

於爾根·哈貝馬斯

國慶時，我們發過用 AI 幫忙去美團當外賣判官的體驗，不少網民在評論區說，以後這活兒就讓 AI 幹了。相比於人，模型在「公平公正」上，似乎更得人心。

不過，用 AI 的利弊很明顯：雖然得到一個看似公正的評判，但這個公正更傾向於「和稀泥」。

如果說買家和賣家之間的糾紛，是各自為了各自的利益，不肯讓步。那判官、評審員的加入，則是考驗是否能夠形成共識，從而決定下一步行動。

事實證明，達成共識是相當困難的。即便 AI 提供了一種方法，而已可以通過一輪又一輪的提煉、反饋，來不斷接近共識。但是想要真正實踐起來相當困難，有照片、有影片，不同的人看來還是有不同的判定，更別提故意攪混水的。

哈貝馬斯提出這個概念，也被學術界詬病過於理想主義，在實踐中根本落地不了。開發這個模型時，DeepMind 的團隊給高齡 90 歲的哈貝馬斯發了郵件，詢問他的意見。

笑死，根本沒回覆。開發人員說，「顯然，他不用電子郵件。」