9年實現愛恩斯坦級AGI?OpenAI科學家Dan Roberts談強化學習擴展的未來

機器之心報導

編輯:陳萍、Panda

近日,在紅杉資本主辦的 AI Ascent 上,OpenAI 研究科學家 Dan Roberts 做了主題為「接下來的未來 / 擴展強化學習」的演講,其上傳到 YouTube 的版本更是採用了一個更吸引人的標題:「9 年實現 AGI?OpenAI 的 Dan Roberts 推測將如何模擬愛恩斯坦。」

在這場演講中,Dan Roberts 介紹了預訓練和強化學習的 Scaling Law,並預測強化學習將在未來的 AI 模型構建中發揮越來越大的作用,而隨著強化學習繼續擴展,我們最終將造出有能力發現新科學的模型。

https://www.youtube.com/watch?v=_rjD_2zn2JU

Dan Roberts,Open AI 研究科學家,強化學習科學團隊負責人,同時也是 MIT 理論物理中心訪問科學家。他還曾與 Sho Yaida 合著了《The Principles of Deep Learning Theory(深度學習理論的原理)》一書,該書有發佈在 arXiv 上的免費版本:https://arxiv.org/abs/2106.10165 。他還曾在 Facebook AI 研究中心擔任過研究科學家,之後他參與創立了一家為國防、情報和金融服務客戶提供協作情報文本挖掘產品的公司 Diffeo—— 該公司後來被 Salesforce 收購,Dan Roberts 也一併加入了 Salesforce。後來,他又加入了紅杉資本,成為了一位 AI Fellow。去年,他離開紅杉資本,加入了 OpenAI。

機器之心整理了 Dan Roberts 的演講內容。

正如你們許多人知道的,去年 9 月,OpenAI 發佈了一個名為 o1 的模型。

我這裏展示的是一張圖表,y 軸代表模型在某種數學推理基準測試上的表現,但真正有趣的是 x 軸。

左邊的圖表顯示,隨著訓練時間的增加,模型性能隨之提升。這種走勢是每個訓練 AI 模型的人都熟悉的。

但真正令人興奮的是右邊的圖表:它表明在「測試時間」增延長,模型的表現也會得到改善。模型學會了思考,思考的時間越多,進步就越大。

這個發現太重要了,我們甚至把它印在了 T 恤上。因為這代表了一個全新的擴展維度 —— 不僅僅是訓練時間擴展,還包括測試時間擴展。

這種發現意味著什麼呢?意味著我們有了一個會思考的模型

上個月,我們發佈了一個更強大的推理模型 o3,比如圖中展示的一張草稿圖,你可以提問「Solve the QED problem on the left(解決左邊的量子電動力學問題)」。

來源 https://openai.com/index/thinking-with-images/
來源 https://openai.com/index/thinking-with-images/來源 https://openai.com/index/thinking-with-images/

這類模型在測試時,能進行思考,分析圖像,並放大圖像細節(過程如下)。

其實這張紙上有個費曼圖(一種用於表示量子場論計算的圖示),模型經過分析後,最終給出正確答案 —— 整個過程大約花了一分鐘。

順便提個趣事:在發佈這篇博客前,一位同事讓我驗證這個計算。儘管這是教科書級別的題目,但我花了 3 個小時才搞掂 —— 我得一步步追蹤它的推導,確保所有正負號都正確,最後才能確認答案是對的。

那麼,我們現在能做什麼?模型思考一分鐘,就能完成一些相當複雜的計算 —— 但我們的目標遠不止於此。

不如做個思維實驗吧!說到思維實驗,誰最擅長?艾伯特・愛恩斯坦。

讓我們以愛恩斯坦為對象做個假設:如果回到 1907 年(他剛開始研究廣義相對論之前),讓他回答一道廣義相對論的期末考題 —— 這題目其實是 GPT-4.5 編的,但我可以保證,這確實是你會遇到的那種典型問題。

我們設想愛恩斯坦在 1907 年被問到以下問題:問題 1:黑洞與施瓦西度規。

當然,作為 OpenAI,我們不會直接問愛恩斯坦,而是問「愛恩斯坦 v1907-super-hacks」。

我認為愛恩斯坦是個視覺型思考者。他總愛用電梯和自由落體來舉例 —— 學廣義相對論時肯定會碰到這些概念,還有那些橡膠膜上的小球的比喻。不過看起來他中途走神去琢磨量子力學了……(我們的模型也經常這樣分心!)。

看起來「愛恩斯坦 v1907-super-hacks」的思考逐漸接近黑洞的概念了…… 不過我也不知道為什麼他會把自己代入到這些場景里。但答案是正確的。

但事實證明,GPT-4.5 沒能答對這道題,我們得靠 o3 才能解決。

我在 OpenAI 的工作大概就是專門驗證這些物理計算,而不是搞 AI 研究。

不過重點在於:模型給出了正確答案,而愛恩斯坦當然也能答對 —— 只是他花了 8 年時間

目前,我們的模型已經可以通過一分鐘的思考重現教科書級別的計算及其衍生問題。但我們的目標遠不止於此 —— 我們希望它們能為人類知識與科學的前沿做出重大貢獻。

我們在回到這張圖表(左邊),如何才能實現這一目標?通過圖表可以看出,模型的性能會隨著訓練量的增加而提升,而我們的訓練方法主要是強化學習(Reinforcement Learning, RL)

這次演講我最想傳達的核心信息是:我們需要持續擴大強化學習的規模。一年前,我們發佈了 GPT-4o,當時所有的計算資源都投入在預訓練(pre-training)上。

但隨後,我們開始探索新方向,這才有了如今測試階段的「思考」能力 —— 比如在 o1 模型 中,我們額外增加了強化學習計算量(RL compute)。

當然,這隻是一個卡通演示,比例不一定對,但其方向是對的。o3 用到了一些強化學習,但未來強化學習計算的比重會更大。到某個時候,強化學習計算可能會成為主導。

這是我從 Yann LeCun 的幻燈片借的一張圖,大概是他 2019 年的一場演講。這張幻燈片有點複雜,難以理解。其中關鍵在於:預訓練就像這個大蛋糕,強化學習應該像上面的小櫻桃。我們實際上要做的是顛覆這個迷因。我們的蛋糕大小可能不會變化,但我們可能會有一顆超大的強化學習櫻桃

那麼,我們計劃怎麼做呢?但我不能泄漏我們的計劃。我一開始擔心我的幻燈片會被刪減一些,但一切都還好。

我們的計劃其實很明顯:大規模擴展計算

什麼意思呢?我們將籌集 5000 億美元,在德克薩斯州的阿比林買一些地,建一些建築,在裡面放一些計算機。我們也將訓練一些模型,然後希望能借此獲得大量收入,然後我們會建更多建築並在裡面放更多計算機。這就是我們擴展計算的方式。與此同時,我們也將發展 scaling 科學,這就是我在 OpenAI 所做的事情。

這張圖來自介紹 GPT-4 的博客文章,那時候我還沒有加入 OpenAI,但這張圖確實振奮人心。下面的綠點是 GPT-4 的最終損失性能,前面的灰點是訓練過程中記錄的性能。而這張圖採用了對數尺度。

將這些點連起來,可以得到一條趨勢線,我們可以借此預測未來:訓練前所未有的大模型確實能帶來好處。

現在我們有了測試時間計算和強化學習訓練的新方向。我們是否必須拋棄一切,重新發明應用於擴展計算的含義?所以我們需要擴展科學

這張圖來自播客主理人 Dwarkesh。他問,既然現在 LLM 已經記住了如此多的知識,為什麼還沒有做出什麼科學發現呢?

原因可能是我們提問的方式不正確。在研究中,很多時候提問的方式比研究過程和答案更重要。所以關鍵在於問對問題。

還有一個可能原因是,我們現在過於關注競賽數學等問題了,這就導致模型在不同問題上的能力參差不齊。

總之,我認為真正會發生的事情是擴大規模。我們需要進一步擴大規模,這是有用的。

總結一下,這就是接下來會發生的事情。這是去年 AI Ascent 上的一張圖,其中 Y 軸是半對數的。可以看到,智能體 / AI 所能處理的任務的長度每 7 個月就會翻一倍。根據這張圖,他們可以執行長達一個小時的測試了,但明年呢?大概會在 2 到 3 小時之間。

不過,預測 AI 的發展並不容易,大家總是錯的。但假如這張圖的預測是對的,沿著其趨勢,到 2034 年 AI Ascent 時,AI 將有能力進行長達 8 年的計算和思考 —— 而 8 年正是愛恩斯坦發現廣義相對論所用的時間。

我想,或許 9 年後,我們就將有能發現廣義相對論的模型。