揭發問題反遭報復?AI行業內部舉報機制困境

(來源:MIT Technology Review)(來源:MIT Technology Review)

近年來,科技公司不斷推出更先進的 AI 模型,而監管機構屢屢措手不及。可以預見,實驗室即將發佈的新模型將帶來新的監管挑戰。這隻是時間問題。例如,OpenAI 可能在幾週內發佈 ChatGPT-5,這款模型有望進一步提升 AI 的能力。目前來看,幾乎沒有任何力量能夠延緩或阻止那些可能帶來極大風險的模型的發佈。

在模型發佈之前進行測試是減少風險的常見方法,這有助於監管機構權衡利弊,甚至可能阻止那些被認為過於危險的模型發佈。然而,當前的測試準確性和全面性仍然不盡如人意。AI 模型有時會故意隱藏自己的能力,避免引發安全問題。而現有的評估也難以全面揭示某個模型的所有潛在風險。此外,測試的範圍有限,無法發現所有值得深入調查的隱患。還有誰來進行測試、測試人員的偏見如何影響結果等問題。因此,評估必須與其他治理工具相結合。

其中一個可能的工具是實驗室內部的舉報機制。理想狀態下,員工應該能夠定期、全面地表達他們對 AI 安全的擔憂,並相信這些擔憂能夠得到有效處理。然而,越來越多的證據表明,在 AI 實驗室中,公開批評不僅未能得到鼓勵,反而變得更加稀少。僅三個月前,13 名 OpenAI 及其他實驗室的前任和現任員工聯名發表公開信,表示如果他們試圖揭露不合規但不違法的公司行為,可能會遭到報復。

如何發出警報

理論上,外部舉報者保護機制可以在發現 AI 風險方面發揮重要作用。它們能夠保護因披露公司問題而被解僱的員工,並彌補內部舉報機制的不足。幾乎所有州都有一項公共政策例外,即員工如果因揭發不安全或非法的公司行為而遭報復,仍可以尋求法律補救。然而,在實際操作中,這一例外條款對員工的保護非常有限。在舉報案件中,法官往往偏向僱主。尤其是在 AI 領域,由於社會尚未就 AI 開發和部署的安全標準達成共識,AI 實驗室在此類訴訟中的勝訴機會極大。

這些問題解釋了為什麼上述 13 名 AI 工作者,包括前 OpenAI 員工 William Saunders,呼籲設立一種新的「警示權」。他們建議公司應為員工提供匿名途徑,讓員工可以向實驗室董事會、監管機構或由行業專家組成的獨立第三方報告安全相關的擔憂。雖然具體細節尚未敲定,但這一流程可能是一個正式的、程序化的機制。董事會、監管機構和第三方都需記錄報告,並可能展開調查,後續的會議和聽證也可能是這一流程的一部分。然而,按照 Saunders 的說法,AI 工作者真正需要的可能是另外一種方式。

Saunders 在《Big Technology》播客中描述了他理想中的安全擔憂分享流程。他並沒有強調正式渠道,而是希望有一個中間的、非正式的步驟。他希望能夠先獲得中立專家的反饋,幫助判斷某個安全問題是否足夠嚴重,值得啟動「高風險」的正式警示程序。Saunders 認為,現有的政府監管機構無法承擔這個角色。

首先,這些監管機構可能缺乏足夠的專業知識,無法幫助 AI 工作者理清安全問題。其次,員工也很少願意與政府官員直接接觸——正如 Saunders 在播客中所言,這樣的聯繫可能讓人「感到非常有壓力」。他更希望能夠聯繫一位專家,討論自己的擔憂。在理想情況下,專家會告訴他相關風險並不嚴重或不太可能發生,這樣他就能安心繼續手頭的工作。

降低門檻

因此,Saunders 在播客中的建議並不是「警示權」,因為這意味著員工已經確信存在不安全或非法的行為。他真正想要的是一個「直覺檢查」,即一個機會來驗證他對不安全或非法行為的懷疑是否合理。這種情況下的風險較小,監管反應也可以相應放緩。處理這些初步檢查的第三方可以更加非正式。比如,AI 領域的博士生、已退休的行業專家或其他擁有相關知識的人士可以自願組成一個 AI 安全熱線。他們可以通過保密的匿名電話,與員工快速、專業地討論安全問題。熱線的誌願者應當熟悉最新的安全實踐,並具備幫助員工瞭解可用選項(如警示權機制)的廣泛知識。

正如 Saunders 所指出的,很多員工不願直接將自己的擔憂升級至董事會或政府機構。如果有一個中間的、非正式的步驟,他們更可能主動提出問題。

借鑒其他領域的經驗 

關於 AI 安全熱線的具體運作方式,AI 社區、監管機構和民間社會還需要進行進一步討論。為了讓熱線發揮最大作用,可能需要建立一種機制,將最緊急、經過驗證的報告及時傳遞給相關權威機構。此外,如何確保熱線通話的保密性也是一個需要深入研究的問題。招募和留住誌願者也是一大挑戰。考慮到 AI 領域專家們對 AI 風險的廣泛關注,出於幫助他人的意願,一些專家可能會願意參與。如果誌願者數量不足,可能需要提供一些額外激勵。不過,首先我們必須認識到 AI 安全監管中存在的這一缺口。接下來,我們需要借鑒其他行業的成功經驗,建立第一個 AI 安全熱線。

一個可以參考的範例是設立監察員。其他行業已經意識到,設立中立、獨立的監察員來評估員工的擔憂是非常有價值的。學術界、非營利組織和私營企業中都有這樣的機制。監察員的最大特點是中立性——他們沒有偏袒任何一方的動機,因此更容易獲得各方的信任。回顧聯邦政府中監察員的應用案例可以發現,當有監察員存在時,問題往往能更早地被提出並得到解決。

這一概念相對較新。美國商務部在 1971 年設立了第一個聯邦監察員,負責幫助公民解決與政府機構的爭端,並調查政府行為。其他機構,如社會保障局和稅務局,隨後也設立了自己的監察員辦公室。對這些早期努力的回顧顯示,優秀的監察員確實能夠顯著改善公民與政府的關係。整體來看,監察員的存在有助於提高法規的自願遵守率,並促進公民與政府的合作。

AI 行業的監察員或安全熱線可能會與聯邦機構的監察員有所不同,但這一概念本身值得 AI 安全倡導者深入研究。

警示權可能有助於讓 AI 安全問題浮出水面,但我們還需要設置更多中間的、非正式的步驟。AI 安全熱線是一個容易實現的監管措施。我們可以迅速組織一批誌願者,提供一個即時的渠道,讓像 Saunders 這樣的人可以放心地表達他們的擔憂。

本文作者 Kevin Frazier 是聖湯馬斯大學法學院的助理教授,也是德克薩斯大學奧史甸分校憲法研究項目的高級研究員。

原文鏈接:

https://www.technologyreview.com/2024/09/16/1103959/why-we-need-an-ai-safety-hotline/