Anthropic四大專家「會診」:實現深度思考不一定需要多智能體,AI完美對齊比失控更可怕!

如果我遇到一個對自己的道德觀完全確信的人(AI),無論他們持有什麼樣的道德觀,都會讓我感到恐懼。

相比之下,如果遇到一個人(AI)能夠承認自己對這些問題存在不確定性,願意根據新的倫理認知調整自己的觀點,這樣的人(AI)反而會讓人感到更加踏實。

整理丨王啟隆

出品丨AI 科技大班營(ID:rgznai100)

最近發現,相比 OpenAI,Anthropic 更喜歡發佈「團建類」的影片。

比方說,OpenAI 上一次發佈團建影片還是在 o1 問世的時候,一群科學家圍在一起聊一聊自己對推理模型的期盼。除此之外就是前段時間的「12 天直播帶貨」,還有開發者日期間 Sam Altman 的一些直播剪輯。

可以說,OpenAI 走的基本還是「明星帶貨」風格,主打的是 Sam Altman 這位 AI 圈巨星。

用油管評論區底下網民的話來說,「現代互聯網的無價之寶,就是我們可以坐在家裡聽幾千公里的頂級 AI 科學家討論事情。(對中國來說是 14,000 多公里)

今天早上,Anthropic 又在官號發佈了一場「專家會診」影片,讓實驗室里的四位核心科學家在舊金山舉行行一場「Anthropic 研究沙龍(Anthropic Research Salon)

沙龍主題是《AI 對齊到底有多難?》,四位專家分別是負責社會影響研究的 Alex Tamkin(左一)

鑽研大模型可解釋性(Interpretability)Josh Batson(右一)

研究方向是對齊微調的小姐姐 Amanda Askell(右二)

還有去年 OpenAI 「離職宮鬥」的主角,前 OpenAI 超級對齊負責人,現 Anthropic 對捷高學負責人,Jan Leike(左二)

Jan 的這張照片被國內外各大媒體都快 P 到包漿了,可見這件事當時的影響力。

這幾年,AI 安全問題引發了前所未有的關注,「AI 教父」傑佛瑞·辛頓基本上每場演講和採訪都在警示這點。這次沙龍里,四位頂尖研究者的對話揭示了一系列精彩觀點:

  • Amanda 帶來了對齊研究中最新的轉向:不是讓 AI 完全服從人類,而是培養它獨立的倫理思考能力

  • Jan 並沒有避嫌 OpenAI ,不僅繼續提出「超級對齊」的概念,還用 GPT-4 的訓練過程舉了例子;

  • Josh 展示了最新的可解釋性研究成果,揭示了 AI 假裝友善與「真正友善」的微妙區別

  • 主持人 Alex 則從社會學角度,警示了 AI 系統可能產生的群體性風險

以下為對話全文,經 CSDN 精編處理:

AlexTamkin:

今天非常榮幸能邀請到在座的各位參加本次研討會,包括我們的老朋友和新朋友。本次研討會將採用輕鬆對話的形式進行。我們邀請了來自 Anthropic 四個不同團隊的研究人員:我來自社會影響團隊,Jan 來自對捷高學團隊,Amanda 來自對齊微調團隊,Josh 來自可解釋性團隊

首先,我想請對齊微調團隊的 Amanda 談談你對「對齊」(Alignment)這一概念的理解。作為負責模型行為研究的核心人員,你如何看待自己在決定 Claude 行為特徵方面所扮演的角色?

AmandaAskell:

說到這個問題,應該去問柏拉圖了,畢竟是他在《理想國》提出了「哲學王」(philosopher king)的概念。

關於「對齊」這個概念,我有一些不太傳統的看法。當前學界往往傾向於投入大量時間來嚴格定義這個概念,部分原因是受到了社會選擇理論的影響。按照這種思路,如果我們假設每個個體都有其效用函數,那麼在如何最大化這些效用函數的問題上,能得出的理論結論其實是相當有限的。

我傾向於採取更務實的方法:我們應該首先確保系統運行得足夠好,為後續的迭代優化創造條件。我們不必一開始就追求某種完美的對齊概念——雖然這樣的概念確實存在,可以被定義和討論,但在初期階段,更重要的是讓系統朝著正確的方向發展,達到一個基本的標準線。即便這個結果不夠完美,即便有些人可能不完全認同,我們仍然可以在這個基礎上不斷改進。

就我個人而言,我的目標主要是達到這個基本標準,然後在此基礎上持續優化。談到模型的行為表現以及我如何看待這個問題,這個話題我之前也探討過,但我可以分享一下我目前的基本理念:我們應該努力讓模型表現得像一個具有良好道德素養、懷有善意的人類,如果這個人恰好處在類似的情境中會如何行事。

當然,這裏存在一個獨特的挑戰,因為模型需要理解自己作為一個 AI 系統與數百萬用戶對話的特殊處境,這確實會影響其行為方式的選擇。比如說,在一般情況下,你可能會很自然地與某人討論政治話題,但如果你要面對數百萬的受眾,你可能會更謹慎地思考:自己的言論可能會對這麼多人產生什麼樣的影響?這確實需要更周密的考慮。

關於如何將價值觀植入模型這個問題,我認為我們需要轉變思維方式。

有時人們會問:「我們應該在模型中植入什麼樣的價值觀?

但這種提問方式本身就值得商榷。設想一下,我們會用同樣的方式來看待人類嗎?彷彿有人給我注射了一劑「價值觀血清」,就能讓我對某些信念深信不疑?(編者註:用《三體》的梗就是「思想鋼印」)

這種想法本身就顯得有些危險。

實際上,每個人都擁有多元的價值體系,我們會在不同價值之間進行權衡,對各種道德框架持有不同程度的不確定性。

在現實生活中,我們經常會遇到這樣的情況:某個具體問題讓我們意識到,原有的價值框架與我們的直覺並不完全吻合,這時我們就需要及時調整和更新我們的認知。

我認為倫理學實際上比人們想像的更接近物理學。它同樣具有經驗性特徵,需要我們在不確定性中不斷探索和形成假設。說實話,如果我遇到一個對自己的道德觀完全確信的人,無論他們持有什麼樣的道德觀,都會讓我感到恐懼。相比之下,如果遇到一個人能夠承認自己對這些問題存在不確定性,願意根據新的倫理認知調整自己的觀點,這樣的人反而會讓人感到更加踏實。

當然,我並不是說這種方法一定能完全解決模型對齊的問題,但這至少是我們當前階段的一個重要目標。

回到問題(如何決定 Claude 行為特徵?),關於是否應該向模型注入價值觀,以及我也許我已經部分回答了:模型應該保持對世界上存在的各種價值觀的開放態度。理想情況下,這既不應該是某個人將自己的價值觀或偏好強加給模型,也不應該是簡單地讓所有人投票決定要把什麼價值觀植入模型,而是要讓模型像那些對價值問題保持開放和響應態度的人一樣,具備思考和調適的能力。

AlexTamkin:

打斷一下,我們馬上回到這個話題。

我想先請教 Jan,你如何看待 Amanda 的觀點?特別是針對更強大的 AI 模型,為什麼這種方法可能存在局限性?雖然 Amanda 並未聲稱這就是完整的解決方案,但讓我們深入探討一下這其中的挑戰。

JanLeike:

設想一下,如果每個智能體都像 Amanda 描述的那樣,都是一個努力追求道德行為的善意個體,這當然很好。Amanda 的方法確實很實用——讓模型現在就表現得更好,看看這種方法能帶來什麼樣的進展。

目前,當 Amanda 進行 AI 的性格塑造工作時,她會仔細研究大量對話記錄,然後判斷:「這個模型的道德行為是令人滿意的。」這是我對她工作方式的理解。

但關鍵的挑戰在於:當模型開始執行真正複雜的任務時,我們該如何應對?當它作為一個獨立的智能體在現實世界中活動,需要進行長期的決策序列,或者從事一些我們難以完全理解的研究工作時——比如生物研究領域——我們如何判斷其安全性?這些都是未知的。

這正是我特別關注的「超級對齊」(Superalignment)問題。我們如何解決這個問題?如何將當前的對齊方法擴展到超出我們直接觀察範圍的領域?當我們能夠觀察評估時,我們可以判斷「這很好」,或者實施一些憲法 AI 的方案,但更深層的問題是:我們如何確保我們製定的「憲法」真正能引導模型做出我們期望的行為?這是我認為的核心挑戰。

AmandaAskell:

坦白說,我並不完全反對 Jan 的觀點。作為一個經常持不同意見的哲學研究者,這次我反而發現自己難以提出異議。這或許要歸功於哲學訓練帶給我的批判性思維。

我認為,我的工作實際上在多個層面推進著對齊研究,其中一個重要方面就是對齊的迭代優化。在實踐中,我們正在嘗試讓模型參與自我監督的過程。畢竟,僅憑人力是無法審查如此龐大的對話記錄的。但如果我們能夠讓模型來協助這項工作,而且如果對齊是一個迭代的過程,那麼情況就大不相同了。

我擔心的是,如果研究者忽視了基礎工作,認為可以用一個對齊程度較差的模型來完成這些任務,這可能會帶來問題。我更傾向於首先確保有一個對齊程度最高的模型,然後讓它來協助未來的迭代工作。

JanLeike:

問題在於,當我們無法直接審查對話記錄,必須依賴已對齊的模型時,我們如何確保它真正在幫助我們?

AmandaAskell:

確實,目前我們用來驗證基礎模型對齊程度的方法,同樣被用於確保由該模型訓練的其他模型的對齊性。當模型能力相對有限時,這種方法是可行的。但要擴展到能力更強的模型,我們確實需要開發更強大的驗證機制。

JanLeike:

那麼,你有什麼具體的解決方案嗎?

AmandaAskell:

(笑)你是想聽我的完整計劃嗎?理想情況下,也許模型們能夠很好地進行自我監督,並保持友善。當然,這聽起來很美好,但我並不會完全依賴這種設想。這不是我的真實計劃,不過為了推進討論,我願意為這個觀點辯護一下。

AlexTamkin:

可解釋性研究是我們防範模型在深層次上可能試圖破壞對齊過程的重要策略之一。Josh,你如何看待可解釋性研究在不同對齊方法中的定位?它真的如表面看起來那麼簡單嗎——找到好的特徵就強化,發現有害特徵就抑制?

JoshBatson:

這讓我想起 AI 領域一個有趣的現象,有點類似那個「鍾形曲線」的表情包。

曲線的一端是直覺式的簡單解決方案,中間是複雜的理論推導,而另一端卻往往回歸到某種昇華版的簡單方案。

在某種意義上,對齊的終極解決方案可能確實就是找到並調節善意特徵」(nice feature)——當然,這裏說的「善意特徵」是一個需要深入理解的高維概念。

同樣,我希望可解釋性研究也能達到這樣的境界。它的本質是觀察模型的運作方式並驗證其安全性。這個過程可能很複雜,但如果我們能做到,就可能解答我們面臨的諸多問題。

目前,無論是短期還是長期的研究中,我們都在試圖理解一個關鍵問題:為什麼模型會在多個合理選項中做出特定的選擇?我們可以直接詢問模型,但問題在於,這些模型與人類太相似了,它們總能給出一個看似合理的解釋,就像人類會做的那樣。

但我們如何驗證這些解釋的可靠性呢?如果能夠深入觀察模型在給出答案時的內部思考過程,情況就會不同。比如,現在使用 SAE(可解釋性分析工具)時,我們能夠觀察到某些特徵的激活情況,進而追問:這種特徵在什麼其他情況下會被激活?當我們發現這些特徵也出現在人們說善意謊言的場景中時,這種發現就具有了更深層的意義。這就是我所說的,鍾形曲線的另一端,也就是「智者」層面的理解。

我們的基本思路是:深入觀察模型內部,識別各個組成部分,然後評估這些部分在其他場景中的應用是否符合我們的預期。這就是我們的核心策略。

JanLeike:

那我們如何區分增強的是真正的善意特徵,而不是在人類觀察時表現善意」的偽裝特徵呢?

JoshBatson:

這確實是個關鍵問題。就控制層面而言,這種區分確實充滿挑戰。實際上,許多特徵本身就具有某種「欺騙性」。

社會影響團隊在 Essendon Deep 項目中的研究就很好地展示了這一點:你可能認為發現了一個「反對年齡歧視」的特徵,但深入分析後發現它實際上是「支持年齡歧視」的特徵,反之亦然。當你試圖抑制某個特徵時,有時會得到意想不到的相反行為。

要理解所有可能的情況確實很睏難。但是,一些電路分析工作可以為我們提供線索,幫助我們理解這些特徵是如何形成的。比如,我們可以觀察模型是否在特定環境中尋找人物特徵。我認為我們還需要模型監督。理想情況下,我們需要一個相對公正的監督模型,這個模型不應該在預訓練階段就被植入逃避檢測的傾向。有時候,只要觀察足夠多的樣例,事情就會變得清晰。我們不是需要十個樣例,而是需要數千個。不過,值得慶幸的是,Claude 在這方面表現得非常積極。

AlexTamkin:

Jan,我很想聽聽你的看法。當我們無法直接審查模型的行為、無法提供明確的對齊信號時,該如何應對這些挑戰?

JanLeike:

顯而易見的一個方向是,正 如Amanda 提到的,我們應該更多地利用模型來協助我們完成這項工作。但隨之而來的核心問題是:我們如何建立對這些模型的信任?如何引導這個過程?我們可能會期望利用那些能力較弱但更值得信任的模型,但它們可能也無法勝任這些任務。

在可擴展監督這個研究方向上,我們正在探索各種多智能體動態系統,試圖訓練模型來協助我們解決這些問題。從整體來看,這些挑戰可能會落入兩個極端:要麼比我們想像的容易得多,只需要像 Amanda 說的那樣混合一些數據就能解決;要麼就極其困難,需要我們發展出全新的理念和方法。

就中期策略而言,我認為我們最有希望的方向是嘗試將對齊研究自動化。這樣我們就可以讓模型來承擔這項工作。這樣做將問題簡化為:我們如何確保模型能夠可靠地完成這個相對明確的任務——進行我們較為熟悉的機器學習研究?我們如何評估它的表現?如何為它提供有效的反饋?

JoshBatson:

我認為我們目前正處在一個特殊的階段,而接下來的發展令人既期待又擔憂。當前的特殊之處在於:在前向傳遞過程中產生的信息,很大程度上是通過模型生成的 tokens 傳遞迴來的。思維鏈對於模型的智能表現至關重要,而目前這些思維鏈還是以人類可理解的自然語言形式呈現的。

這就給我們帶來了一個可分解的問題:首先,我們需要確保思維鏈本身是合理且安全的;其次,我們需要驗證這些思維鏈是否忠實地反映了前向傳遞中發生的計算過程。我們可以運用可解釋性研究來驗證這一點,然後由人類或其他模型來檢查這些結果。

令人擔憂的是,當所有這些冗長的中間過程不再使用自然語言表達時會發生什麼。它們可能會變成某種通過深度強化學習獲得的、難以理解的形式。

我認為一個重大挑戰是如何跨越這道鴻溝——當所有的中間結果都變得難以理解時,在經過大量計算後才能產生人類可理解的輸出,我們該如何確保整個過程的安全性?

AlexTamkin:

我很想瞭解各位的思考框架:在你們看來,哪些跡象表明我們可能處在一個「對齊相對容易」的世界?相反,在未來幾年中,哪些跡象可能暗示我們實際上面臨著一個「對齊極其困難」的局面?

JanLeike:

我認為模式生物(model organisms)的研究正是為了回答這個問題。

生物學家通過對選定的生物物種進行科學研究,用於揭示某種具有普遍規律的生命現象,這種被選定的生物物種就是模式生物。

我們在嘗試有意識地創造具有欺騙性或未對齊特徵的模型,研究它們會表現出什麼樣的行為。我們探索的是:創造這樣的模型有多困難?它們的能力邊界在哪裡?

當然,我們的研究方法可能從根本上就存在偏差,這也可能導致我們的失敗。但如果我們能在這個方向上取得進展,就能幫助我們判斷我們離這種具有潛在風險的世界還有多遠。更重要的是,一旦我們成功創造了具有欺騙性的模型,我們能否找到方法來修正它?

AlexTamkin:

如果我們甚至無法判斷一個模型是否具有欺騙性呢?

JanLeike:

這正是我們正在開展「可解釋性審計」的原因,這項工作讓我感到很振奮。不過目前的進展還處於初期階段。

JoshBatson:

我們確實還沒有完成審計工作。但有意思的是,可解釋性研究中的一些發現讓我們對這個問題有了新的認識。

當我們進行這些無監督分析時,我們發現模型中存在數以百萬計的不同特徵,其中很多與人格特徵有關。理論上,模型可能會表現出這些特徵中的任何一種,包括各種欺騙性行為——畢竟,模型確實「知道」什麼是壞人,什麼是不良動機。這種原始能力似乎不可避免地被編碼在模型中。

關鍵問題在於:模型是在使用這些潛在的有害特徵,還是在表現出我們期望的良性行為?特別是當 Amanda 在塑造基礎模型時——這個模型本來是一張白紙——將其塑造成一個應該體現某些特徵而非其他特徵的智能體時,我們如何準確判斷它從有限的訓練數據中究竟學到了什麼?

這確實是個挑戰。我們有一些工具可以探索這個問題,比如可解釋性研究和影響力函數分析等。這些方法可以幫助我們理解模型從訓練過程中獲得了什麼。但不可否認,這個塑造過程本身的重要性怎麼強調都不為過。

AmandaAskell:

我認為一個重要的判斷標準是模型的穩健性。比如說,在模式生物的研究中,如果我們發現僅通過性格訓練就能讓一個有問題的模型重新表現出良好的行為,這可能預示著我們處在一個相對樂觀的世界。相反,如果我們發現這種改變只是表面的,僅僅在原有行為模式上覆蓋了一層薄薄的外殼,那就表明我們面臨的挑戰可能更為嚴峻——當然,也只是相對更為嚴峻而已。

JanLeike:

那麼,我們如何區分一個模型是表面對齊還是深度對齊呢?

AmandaAskell:

我認為我們有多種方法可以進行驗證。可解釋性研究顯然是其中之一。

就模式生物研究而言,我設想的是建立一個紅隊藍隊的對抗性驗證機制,通過這個機制來檢測我們在模型中植入的行為特徵是否真正穩固。有趣的是,作為訓練模型的研究者,我反而希望自己完全不知情。如果我在訓練模型時對驗證的具體內容一無所知,反而更有利於測試我們的干預是否真正有效。否則很容易不自覺地針對測試進行優化。所以在某種程度上,我覺得這種「不知情」反而是件好事。

JanLeike:

也許我們應該設計一個對齊微調的對抗性遊戲?

JoshBatson:

沒錯,你來設計使模型失去對齊,Amanda 來嘗試重新對齊,看看誰能勝出。

AmandaAskell:

確實,我經常對其他研究者說:「請不要告訴我你們具體做了什麼。

JanLeike:

那你覺得能修復一個「潛伏特工」(sleeper agent)模型嗎?

sleeper agent 這個詞本來就是形容現實中潛伏的間諜。

但自從 agent 這個詞被搬到了 AI 圈,現在也可以形容「表面上看起來是對齊的、表現良好的模型,但實際上在某些特定條件下可能會表現出未對齊的行為。」

AmandaAskell:

可以一試。不過為了更好地進行這個實驗,我可能需要對細節知道得更少一些——對,不妨設計一個更具挑戰性的版本。

AlexTamkin:

現在進入提問環節。有問題的觀眾請舉手示意。

提問 1:

我想就剛才討論的內容提出一個問題。當我們談論對齊時,通常關注的是單次推理過程中的對齊問題。但在實際應用中,情況往往更為複雜。

例如,通過 API 使用模型時,我們會嘗試構建自己的文化對齊系統,設置了多個智能體相互對話,試圖實現 Amanda 提到的那種對人類有益的內部思辨過程。這讓我想到人類達成對齊的方式——我們會反復思考,經歷不同的認知階段。

但問題在於,當我嘗試創建這種多智能體思辨系統時,卻發現它們會因為對齊機制的限制而停滯不前。每個代理都會說「抱歉,我不能討論這個話題」,最終陷入無休止的循環。你對這種情況有什麼看法?畢竟不是所有人都在以單次推理的方式使用 Claude。

AmandaAskell:

讓我仔細思考一下這個問題。我想先澄清一點:在我的理解中,實現深度思考不一定需要多智能體。就像人類可以作為單一個體進行深入的思考一樣,模型也應該具備這種能力。實際上,從可解釋性的角度來看,智能體系統越分散,可能帶來的不確定性就越大,這會增加預測和控制的難度

我的思考是:我們是否真的需要通過多智能體系統來實現這一目標?觀察人類的認知過程,我們會發現一個人完全可以進行深入的反思和推理。我們會權衡不同觀點,得出結論。因此,我設想模型中的倫理推理應該更接近於單一模型的深度思考過程,而不是多個模型之間的交互權衡

提問 2:

我想借鑒漢娜·阿倫特關於「平庸之惡」的研究,嘗試一個可能有些特別的類比。阿倫特指出,大多數人本質上並非邪惡,但當置身於特定的社會環境中時,由於人與人之間的互動關聯太過緊密,邪惡反而會作為系統的附帶效應自然產生。

這讓我聯想到:當你們討論模型對齊時,大多關注的是單個模型的行為。那麼,你們如何看待模型與社會的互動關聯?特別是隨著你們開發出越來越多的智能代理,可能達到數以百萬計的規模時,這種系統性的附帶效應該如何應對?

AlexTamkin:

這個問題很有深度。從廣義上看,當我們考慮安全性和對齊問題時,確實需要採取系統性的思維方式,而不能僅僅關注單個模型的孤立表現。我們已經看到許多研究表明,模型的「越獄」(jailbreak)現像往往源於不同價值觀之間的衝突。這些情況會讓模型陷入兩難境地:在正常情況下會被視為有害的行為,在特定情境下卻可能被模型認為是正確的選擇。

要應對這種挑戰,我們有多種工具可以使用。例如,我們可以在訓練過程中就融入這些系統層面的考量,讓模型接觸更豐富的場景,迫使它在回應問題時考慮更廣泛的背景因素。當然,這樣做也會帶來新的挑戰,特別是當模型開始思考其行為可能產生的連鎖反應時。但我同意這個觀點:我們不能將模型視為孤立的個體來研究。

AmandaAskell:

這讓我想到了「可糾正性」(corrigibility)這個概念。我們面臨著一個有趣的權衡:是讓模型完全響應個體用戶的需求,還是讓它們保持一定的獨立判斷?

平庸之惡的論點在這裏特別重要。如果我們讓模型完全服從人類指令,那麼當整個社會系統允許或甚至支持某種有害行為時,模型就會成為促進這種行為的工具——這並不需要人們刻意濫用模型,僅僅是社會系統運作的自然結果。

因此,在讓模型對個體用戶更具響應性和確保其與整體人類利益保持一致之間,確實存在著根本性的張力。認識到這種張力很重要。有時候人們會抱怨模型沒有嚴格執行指令,但從更宏觀的角度來看,模型應該在某種程度上更傾向於對整個人類社會負責,而不是對個別用戶負責。這需要在個體需求和集體利益之間找到恰當的平衡點。

提問 3:

從今天的討論來看,我注意到你們各自關注不同的研究方向:Jan 專注於意圖對齊,確保模型能準確執行我們的指令;Amanda 致力於價值觀對齊,致力於使模型成為具有合理道德準則的智能體;而 Josh 則專注於可解釋性研究,開發驗證其他技術有效性的方法。

假設你們各自的研究都取得了成功,這是否就構成了 AI 安全的完整解決方案?或者說,是否還存在其他關鍵要素?如果有,那些是什麼?

JanLeike:

首先需要說明的是,我們今天的討論實際上只是整個研究領域的一個縮影。除了在座的專家之外,還有許多研究者在這個領域深耕不輟。我們的討論難免有所簡化。

AlexTamkin:

是的,正如 Jan 所說,研究領域遠不止於此。比如我們社會影響團隊,就致力於研究模型對整個社會的廣泛影響。這提醒我們思考一個更根本的問題:即使我們能夠開發出一個完美對齊的模型,我們還需要考慮:這個模型將被誰使用?用於什麼目的?在什麼樣的社會環境中發揮作用?這些更廣泛的社會背景問題同樣值得我們密切關注。

JanLeike:

如果大家對研究領域的全貌感興趣,除了我們已經提到的內容,還有許多重要的研究方向。比如模式生物研究、防範「越獄」的穩健性研究、控制理論研究、信任與安全研究等等,這些都是構建安全 AI 系統不可或缺的組成部分。

AmandaAskell:

我想補充一點,也許這個觀點聽起來有些悲觀,但我不這麼認為。我們現在談論對齊和對齊問題時,往往會把它視為一個單一的理論問題,好像只要找到解決方案就萬事大吉。但這種思維方式從來都不太準確。在我看來,隨著技術的發展,很可能會出現我們現在完全沒有預見到的全新挑戰。這在許多學科的發展歷程中都很常見,我預計 AI 領域也不例外。如果我們過於草率地宣稱「問題已經解決」,反而是非常危險的。因為真正的挑戰可能是我們目前尚未意識到的問題。

提問 4:

Jan 之前提到使用能力較弱的模型來評估更強大的模型。我想瞭解一下,你們是否觀察到模型中的「湧現」現象?比如模型是否會突然表現出高度的欺騙性?或者說,你們是否注意到模型在說謊時會表現得很笨拙,這樣我們就能在它能力還很弱的時候就發現和糾正這種傾向?

JanLeike:

這確實是個很好的觀察。我們有一些具體的例子,比如我們發現 GPT-4 能夠非常熟練地讀寫 base64 編碼,而 GPT-3.5 則做不到這一點。這意味著如果我們試圖用 3.5 版本來監督 4.0 版本,模型很容易就能繞過這種監督。

觀眾追問:

從訓練的角度來看,你們是否能觀察到這種能力是隨時間逐步提升的?比如說,模型一開始偶爾能讀懂 base64,然後這種能力逐漸增強,最後突然達到完美水平?還是說這種能力的獲得有其他模式?

JoshBatson:

你的問題讓我想到了檢查點(checkpoint)的重要性。與其使用前一代模型,我們更應該通過設置合理的檢查點來確保在能力空間中的均勻采樣和監測。

JanLeike:

需要強調的是,信任並不是一個非黑即白的問題。一個基本原則是:我們對模型瞭解得越少,它表現出的能力越強,我們就應該越謹慎地對待它。

JoshBatson:

在這方面,我們確實遇到過一些有趣的發現。比如,我們發現這些特徵在處理 base64 編碼時仍然保持活躍。無論模型是在用 base64 討論加利福尼亞,還是在講述關於孩子對父母撒謊的故事,激活的神經元模式都是相似的。這意味著當模型變得非常強大時,我們有時會意外發現一些普適性的特徵。如果模型具備某種非常通用的綜合能力,我們可能可以利用這一點來實現一些原本很難實現的泛化能力。

這讓我想起早期的一個研究方向:直接告訴模型「做對人類最有利的事情」這種對齊方式。這種方法看似過於簡單,但說不定在某些情況下真的能奏效。有時候,最簡單的方法可能會帶來意想不到的收穫。

資料參考: